머신러닝은 광범위한 적용 분야에서 강력한 기술이라는 인식을 빠르게 쌓아가고 있다. 머신러닝 알고리즘, 특히 DNN(Deep Neural Network)은 초기 이미지 인식 기법과 비교했을 때, 엄청난 진보를 보여주고 있으며, 구글이 이를 텍스트 번역 서비스에 적용했을 때, 사용자들은 즉각적이고 획기적인 개선을 느낄 수 있었다. 머신러닝 기법은 이미 이메일 스팸 필터링이나 맬웨어 탐지, 보안 위협 탐지 등은 물론이고, 자율주행과 같은 새로운 기술이 적용되고 있는 영역에서 조용하지만 중요한 역할을 수행하고 있다. 하지만 머신러닝 기술에 대한 적절한 주의와 인식이 필요함에도 불구하고 많은 사람들이 놓치고 있다. 이를 충분히 준비하지 않는다면, 향후 머신러닝이 더욱 광범위하게 확산되고, 일상 생활 속으로 깊숙히 침투하게 됨에 따라 아마도 새로운 유형의 보안 위협이 발생하게 될 것이다.

지난 몇 년간 머신러닝 알고리즘에 대해 연구해 온 연구자들은 훈련된 머신러닝 모델이 데이터를 잘못 분류하도록 속일 수 있다는 것을 인지했다. 연구자들은 많은 다른 기술을 사용해, 입력 데이터를 조작해 모델을 속일 수 있고, 노이즈를 추가하는 등의 단순한 방법으로 머신러닝 모델을 바보로 만들 수 있다는 것을 확인했다. 보다 복잡한 방법에서, 입력 데이터의 미묘한 변경을 찾기 위해 대립 관계의 신경망을 사용하는 것은 오분류로 이어질 수 있다. 이런 잘못된 분류는 자율주행같은 분야에서 심각한 문제를 초래할 수 있다. 예를 들면 정지 신호를 속도 제한 신호로 잘못 분류한다면 간단한 법규 위반에서부터, 부상이나 사망 등 대형 사고로 이어질 수 있기 때문이다.

대부분의 경우 연구자들은 화이트 박스 모델에 이런 기술을 적용해 공격을 받는 신경망의 내부 동작을 완벽하게 파악할 수 있다. 이정도 수준의 가시성으로 결과를 바꿀 수는 없을 수도 있지만, 화이트박스 모델에서 발견되는 취약점이 실제 애플리케이션에 적용되는지에 대해서는 여전히 의문이 남아있다. 하지만 이런 의문점은 블랙박수 모델에서 공격이 성공하지 시작했을 때, 곧 사라졌는 데, 블랙박스 모델은 입력 데이터를 표시하고 추론 결과를 보여주는 기능만 포함하고 있었다.

이런 성공적인 블랙박스 공격에서 연구원은 두 모델이 동일한 입력 데이터를 받았을 때, 블랙박스 모델에 의해 생성된 결과를 모방하도록 훈련된 병렬 모델을 만들었다. 이 접근방법과 유사한 다른 방법들은 대규모의 입력 데이터 세트와 이에 대응하는 많은 공격을받는 모델에 대한 입력 쿼리를 필요로한다. 이런 문제 때문에, 공격자가 적용할 수 있는 입력 쿼리의 수에 제한이 있거나 출력 데이터나 세부 정보의 양에 제한이 있을 수 있는 실제 상황에서 블랙박스 공격과 같은 공격 방식이 실제로 적용될 수 있는 지 여부에 대한 질문이 남아있다. 연구자들에 의해 엄격한 제약 조건 속에서도 블랙박스 모델을 속여 데이터를 오분류하게 만들 수 있다는 사실을 알게된 지금은 그런 질문조차도 사라졌다.

이 화이트햇(White-hat) 공격이 특히 문제가 되는 이유는, 해커가 대부분의 사람들이 사소사거나 심지어 알아채지도 못하는 수준의 입력 수정으로 모델을 속일 수 있다는 것이다. 모델은 미세하게 변경된 사진을 사람이 인지하는 것과는 전혀 다르게 분류할 수도 있다. 마찬가지로, 음성의 오디오 스트림에 단어를 미묘하게 추가함으로써, 사람이라면 원래의 문장으로 듣게 될 오디오 스트림을 모델은 주입된 문구로 인지하게 만들 수도 있다.

본질적으로 DNN은 이런 종류의 취약점을 갖고 있으며, 심지어 이런 취약점의 보완을 매우 어렵게 만든다. DNN을 구성하는 여러 계층의 뉴런은 원래 입력에서 파생된 수많은 특징들 간의 복잡한 연관성을 구축하면서 입력을 분류해 나간다. 미시적인 영역에서 이런 과정이 어떻게 동작하는지에 대해서는 대부분의 사람들이 잘 알지 못한다. 실제로 DNN이 결과를 산출하는 방법에 대한 일반적인 이해는 지나치게 제한돼 있어, 최적의 모델 매개 변수나 아키텍처를 찾기 위한 일반화된 알고리즘이나 경험적인 방법 또한 존재하지 않는다. 경험이 많은 연구원들은 가능한 많은 대체 아키텍처를 시도하고, 설계를 계속 수정해 나가면서 결과를 가장 잘 드러낼 수 있는 최고의 모델을 찾는 것이 중요하다고 말한다.

DNN의 결과 산출 방식에 대한 이해의 부족은 바로 이를 악용할 수 있는 위협의 통로 역할을 한다. 또는 더 정확하게 해커에게 잠재적인 백도어를 제공하는 것이나 마찬가지다. 예를 들어, 이미지 인식 모델을 만드는 가장 효율적인 방법 중 하나인 커스텀 모델을 개발하기 위한 방법으로 가장 효율적인 방법 중 하나인, 미리 훈련된 다른 모델을 사용하는 것이다. 모델의 동작에 대한 세부적인 부분에 대한 이해의 부족으로 인해, 해커는 기존 모델(즉, 별다른 효과를 발휘하기 힘든)을 손상시키고, 사전 훈련된 모델의 저장소에 수정된 모델을 시드(Seed)하는 경우도 있다. 이후 개발자가 손상된 모델을 시작점으로 사용할 경우, 커스텀 모델은 해커에게 대상 애플리케이션과 관련 자원에 대한 백도어를 제공할 수 있다.

머신러닝 애플리케이션에서 이런 위협과, 위협의 완화는 이제 막 보안이 시작되는 단계에서 드러나고 있는 문제의 일부에 불과하다. 이런 보안 문제에 대한 가장 가능성이 높은 대처 방법은 바로 보안 위협에 있으며, 화이트햇 해커는 블랫햇 해커가 이런 머신러닝 모델을 손상시키는 데 사용하는 기술을 사용해 모델을 보호할 가능성이 높다. 지금 당장 우리가 할 수 있는 것은 이런 보안 위협이 어떤 문제를 야기할 것인가에 대해 인지하고 분류함으로써 대비하는 것이다. 머신러닝 모델 보안의 초기 단계에서는 이런 위협에 대한 대비는 일반적인 제품 개발에서 보안 취약점을 보완하는 적용되는 동일한 기반이, 머신러닝 모델의 도입과 커스텀 모델의 개발에도 동일하게 적용돼야 하는 필수사항이라는 점을 이해하는 것에서부터 시작해야 한다.

 

Written by 스티픈 에반크주크(Stephen Evanczuk) & Provided by 마우저 일렉트로닉스 (Mouser Electronics)

 

[편집자 주] 본 기사는 글로벌 전자부품 유통회사인 마우저 일렉트로닉스 (Mouser Electronics)의 후원을 바탕으로 진행되는 EPNC의 단독 외부 기고입니다.

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지