사실 확인·비용 절감·정확성 향상 등 특화

[테크월드뉴스=양승갑 기자] 구글 딥마인드가 인간과 비슷한 정보 정확성을 갖춘 인공지능(AI) ‘SAFE(Search-Augmented Factuality Evaluator)‘를 공개했다. 일부 결과물에서는 인간보다 더 뛰어난 성능을 갖췄으며 사실 확인, 비용 절감, 정확성 향상 등에 특화됐다는 평가다.

구글 딥마인드가 인간과 비슷한 정보 정확성을 갖춘 AI ‘SAFE‘를 공개했다. [사진=게티이미지뱅크]
구글 딥마인드가 인간과 비슷한 정보 정확성을 갖춘 AI ‘SAFE‘를 공개했다. [사진=게티이미지뱅크]

28일(현지시간) IT 매체 벤처비트에 따르면 구글 딥마인드 연구진은 논문 사전공개 사이트 아카이브에 SAFE를 활용한 정보 확인 방법을 담은 논문을 27일 공개했다. 연구진에 따르면 대형언어모델(LLM)에서 생성된 정보의 정확성을 평가할 때 SAFE가 사람보다 더 나은 성능을 보인다.

연구진은 “LLM은 개방형 주제에 대한 프롬프트에 응답할 때 사실 오류가 포함된 콘텐츠를 생성하는 경우가 많다”고 설명했다.

이들이 활용한 방식은 다단계 추론 프로세스를 사용하는 것이다. 구체적으로 ▲LLM을 활용해 긴 형식의 답변을 개별 사실의 집합으로 분류 ▲구글 검색에 검색 쿼리를 전달 ▲검색 결과에서 사실이 뒷받침되는지 여부를 결정 등 다단계 추론 프로세스를 통해 각 정보의 정확성을 평가한다.

[사진=아카이브 논문 갈무리]
[사진=아카이브 논문 갈무리]

연구 결과, 약 1만 6000개의 정보로 구성된 데이터셋에 대해 SAFE가 인간 크라우드소싱 작업자와 약 72% 일치하는 결과물을 내놓았다. 특히 의견이 일치하지 않은 100개가량의 데이터셋에서는 SAFE의 판단이 76% 더 옳은 것으로 나타났다.

SAFE를 사용하는 것이 인간 작업자보다 약 20배 저렴하다는 사실도 발견했다. 이를 두고 벤처비트는 “언어 모델에서 생성되는 정보의 양이 계속 폭발적으로 증가함에 따라 경제적이고 확장 가능한 방법을 확보하는 것이 점점 더 중요해질 것”이라고 보도했다.

또한 일반적으로 규모가 큰 모델일수록 사실 오류가 적어진다는 것도 확인했다. 이를 위해 제미나이, GPT, 클로드, 팜2 등 모델을 벤치마크 ‘LongFact’에서 비교했다.

연구진은 “SAFE는 일반적으로 규모가 큰 언어 모델일수록 사실성을 더 잘 달성한다는 것을 발견했다”며 “경험적으로 LLM 에이전트가 초인적인 평가 성능을 달성할 수 있음을 입증했다”고 강조했다.

한편 연구진의 결과가 다소 과장됐다는 의견도 제기됐다.

미국 상원 AI 감독 소위원회에서 연설을 하기도 했던 AI 연구자 게리 마커스(Gary Marcus)는 X를 통해 “이는 마치 1985년에 발표된 체스 소프트웨어(딥소트)가 초인적이라고 말하는 것과 같다”며 ‘초인적’라는 의미 보다는 성능이 일부 향상된 것으로 해석했다.

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지