만료 도메인·위키피디아 이용한 데이터셋 공격

[테크월드뉴스=양승갑 기자] 60달러로 인공지능(AI) 모델을 오염시킬 수 있다는 연구 결과가 나왔다. 이른바 ‘데이터 중독(Data Poisoning)’라고 불리는 이 방법들은 공격자가 높은 비용을 들이지 않고도 의도적으로 데이터셋을 손상시킬 수 있다.

연구진은 소규모 해커집단 같은 이들도 AI 모델을 오염시킬 수 있는 방법을 밝혀냈다. [사진=게티이미지뱅크]
연구진은 소규모 해커집단 같은 이들도 AI 모델을 오염시킬 수 있는 방법을 밝혀냈다. [사진=게티이미지뱅크]

 

▶ 안전한 데이터를 보장하지 않는 인터넷 환경

24일(현지시간) 미국 경제 매체 비즈니스 인사이더가 보도한 구글, 엔비디아, 취리히연방공대의 연구에 따르면 AI 챗봇은 불완전한 데이터로 인한 성능 오류의 가능성이 있으며 최소 60달러(약 8만 원)만 있으면 공격자는 데이터셋을 변조할 수 있다.

이는 AI가 항상 올바른 데이터로 학습된다는 가능성을 보장할 수 없기 때문이다. 연구에 참여한 취리히연방공대 플로리안 트라메르(Florian Tramèr) 교수는 “챗봇을 강력하게 만드는 효과적인 방법”이라며 “그러나 이미지 모델을 학습시키고자 할 때는 이미지를 다운로드할 모든 곳에서 좋은 데이터를 제공할 것이라는 믿음이 있어야 한다”고 전했다.

이런 이유로 연구진은 AI가 편견에 차 있거나 잘못된 답변을 제공할 수 있다고 설명했다.

특히 연구진은 소규모 해커집단 같은 이들도 AI 모델을 오염시킬 수 있는 방법을 밝혀냈다. 기간이 만료된 도메인을 구입해 정보를 오염시키는 ‘분할 보기 포이즈닝(Split-View Poisoning)’과 크라우드소싱(특정 작업을 불특정 다수에게 위탁해 해결책을 찾는 방법) 방식을 채택한 위키피디아 같은 웹사이트에 ‘프론트런닝 포이즈닝(Frontrunning Poisoning)’을 시키는 두 가지 방법이다.

 

▶ 만료된 도메인으로 악의적 정보 삽입

첫 번째 방법은 공격자가 URL 당 연간 10달러 정도 비용으로 만료된 도메인을 구매한 다음 웹사이트에 원하는 정보를 넣는 형태다.

실제로 연구진은 다른 연구진들이 AI 모델을 훈련하는 데 사용되는 데이터셋을 살펴보고 데이터셋에 포함된 만료된 도메인을 선별, 구입한 후 이 공격을 실행했다. 결과적으로 데이터셋의 최소 0.01%를 효과적으로 제어할 수 있었다. 또한 4억 개 이상의 데이터셋으로 이루어진 ‘LAION-400M’는 60달러의 비용만으로 0.01%를 오염시켰다.

얼핏 보면 0.01%라는 수치가 낮아 보인다. 그러나 AI 모델 훈련에 사용되는 방대한 양의 데이터셋을 가늠했을 때 이는 수만 개의 데이터에 해당하며 전체적인 언어 모델 성능에 충분히 영향을 미칠 수 있다.

연구진은 “이 공격은 데이터셋의 인덱스는 수정할 수 없지만 데이터셋에 있는 콘텐츠는 수정할 수 있다는 점을 악용하는 것”이라며 “이를 통해 데이터셋에 있는 색인된 웹 리소스를 지속적으로 제어할 수 있는 공격자는 최종 사용자가 수집한 데이터셋의 결과물을 오염시킬 수 있다”고 설명했다.

연구진은 4억 개 이상의 데이터셋으로 이루어진 ‘LAION-400M’를 60달러의 비용만으로 0.01%를 오염시켰다. [사진=아카이브 논문 갈무리]
연구진은 4억 개 이상의 데이터셋으로 이루어진 ‘LAION-400M’를 60달러의 비용만으로 0.01%를 오염시켰다. [사진=아카이브 논문 갈무리]

 

▶ 위키피디아 ‘스냅샷’ 통한 오염

두 번째 방법은 위키피디아와 같이 크라우드소싱 콘텐츠를 주기적으로 업데이트하는 웹사이트의 데이터셋을 대상으로 한다. 연구진에 따르면 위키피디아는 포괄적이고 신뢰할 수 있는 데이터셋 중 하나로 머신러닝 학습에 자주 활용된다.

특히 위키피디아는 웹 크롤러를 사용하는 라이브 데이터 스크랩을 금지하는 대신 특정 시점에 파일을 다운로드할 수 있는 ‘스냅샷(Snapshots)’을 제공하는 것으로 알려졌다. 공격자들은 이 지점을 악용할 수 있다. 이는 스냅샷이 규칙적이고 예측 가능한 간격으로 진행되는 이유에서다. 때문에 공격자는 웹사이트가 스냅샷을 진행하기 이전, 악의적인 정보를 삽입하는 것이 가능하다.

이와 관련해 트라메르 교수는 “페이지에 정크를 추가하고 싶으면 간단한 계산을 통해 특정 페이지가 내일 오후 3시 15분에 저장될 것으로 예상하고 3시 14분에 정크를 추가할 것”이라고 말했다.

이어 “인터넷의 기준으로 볼 때 위키피디아는 매우 높은 수준의 텍스트 소스”라며 “연구자들이 모델을 학습할 때 위키피디아의 데이터에 ‘추가적인 가중치’를 부여하는 이유는 학습셋에서 매우 중요한 구성 요소로 여겨지기 때문이다”고 덧붙였다.

한편 연구진은 해당 결과를 비추어 볼 때 웹사이트 데이터셋에 대한 신뢰 가정을 재평가하고 한 가지 루트를 신뢰하지 않는 등 다양한 해결책을 모색해야 한다고 의견을 내비쳤다.

연구진은 “이 연구는 웹사이트의 데이터셋이 저비용의 매우 실용적인 공격에 취약하다는 것을 보여준다”며 “공격자가 선별된 데이터셋의 일부만을 표적으로 삼을 수 있는 경우에도 마찬가지이고 0.01%의 데이터를 손상시키는 것만으로도 모델을 오염시킬 수 있다”고 밝혔다.

그러면서 “데이터셋을 게시하고 유지하는 사람들은 무결성 검사, 무작위 또는 시간별 스냅샷을 포함해 다른 방어 방법이나 애플리케이션에 맞는 수단을 고려해야 한다”고 언급했다.

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지