1TB 사전 축적 데이터·자체 지식 그래프 핵심

[테크월드뉴스=양승갑 기자] 아직 할루시네이션 문제는 완전한 극복이 어렵다는 것이 업계의 주류 의견이다. 하지만 생성형 AI 기업 솔트룩스는 학습 방식을 개선하고 외부 지식을 연계하는 접근법을 활용함으로써 할루시네이션 문제를 일부 해결할 수 있다고 자신했다.

솔트룩스 정용일 상무는 할루시네이션 근본적 문제를 데이터의 벡터화로 인해 정확도가 떨어지는 것으로 설명했다 [사진=양승갑 기자]
솔트룩스 정용일 상무는 할루시네이션 근본적 문제를 데이터의 벡터화로 인해 정확도가 떨어지는 것으로 설명했다 [사진=양승갑 기자]

 

▶ 생성형 AI 기업의 과제, 할루시네이션

이른바 할루시네이션(Hallucination)으로 불리는 환각 현상은 생성형 AI 기업들이 직면한 큰 골칫거리다. 할루시네이션은 맥락과 관계없거나 사실과 무관한 정보를 마치 정답인 것처럼 이야기하면서 정보 획득에 혼란을 불러온다. 현재 대중에게 가장 친숙한 생성형 AI 서비스 챗GPT 역시 할루시네이션 문제에서 자유롭지 못하다.

실제 관련 업계에서도 할루시네이션을 생성형 AI 서비스의 다음 단계로 나아가기 위한 선결 과제로 보는 모양새다. 오픈AI는 GPT-3.5의 고질적인 문제 할루시네이션을 해결하기 위해 GPT-4 모델의 기능을 개선했다. 네이버의 경우 생성형 AI 검색 큐를 공개하면서 할루시네이션 극복에 초점을 두고 개발했다고 밝힌 바 있다.

글로벌 컨설팅기업 보스턴컨설팅그룹(BCG)은 할루시네이션으로 인해 생기는 문제는 단순 실수부터 위험한 오류에 이르기까지 다양하며 저작권 침해, 데이터 유출, 계획되지 않은 기능 등 기업에게 중대한 위험도 초래할 가능성이 있다고 설명했다.

이에 솔트룩스는 7일 언어모델 루시아를 발표하며 ▲사용자 권한 별 차별화된 답변 ▲답변 정확도 향상을 위한 프롬프트 구축 ▲최신성을 보장하는 검색 증강 생성 등의 이점을 설명했다. 특히 할루시네이션 최소화를 강조하며 생성형 AI 모델의 문제를 보완했다고 설명했다.

솔트룩스 정용일 상무는 지식 그라운딩 방법을 통해 할루시네이션 문제가 일부 해결될 것으로 바라봤다 [사진=양승갑 기자]
솔트룩스 정용일 상무는 지식 그라운딩 방법을 통해 할루시네이션 문제가 일부 해결될 것으로 바라봤다 [사진=양승갑 기자]

 

▶ 지식 그래프·독자적 기술로 할루시네이션 극복

할루시네이션, 편향성 등 문제를 해결하기 위해 솥트룩스가 제시하는 방법은 ‘지식 그래프를 활용한 사실/지식 그라운딩(Factual Grounding)과 ‘검색 증강 생성(RAG: Retrieval-Augmented Generation)’ 등의 방법을 적용하는 것이다. 사실 기반의 자체 구축 데이터를 언어모델에 적용함으로써 문제를 해결한다는 설명이다.

거대언어모델(LLM)에서 발생하는 할루시네이션의 근본적인 문제는 문장, 단어, 숫자가 벡터화된다는 점이다. 벡터로 변환된다는 것은 데이터가 개념화되고 추상화된다는 것을 의미한다. 데이터가 쌓이는 과정에서 일정 임계값을 넘길 경우 구체적인 사실이나 숫자 등이 부적절한 수치로 나타나고 형태를 잃어버리게 된다.

파라미터의 유한성과 언어적 제약으로 최적화 한계도 존재한다. 또한 생성형 AI는 학습 강도와 문맥을 기반으로 확률적으로 적절한 답변을 생성한다. 데이터 오염 문제가 지속될 경우 자동회귀(Auto-Regression)를 기반으로 한 할루시네이션 문제도 발생할 수 있다.

솔트룩스가 내세운 방법의 핵심은 전사적 자원 관리(ERP)나 공급망 관리(SCM), 그룹웨어 등 정형 데이터를 언어모델과 실시간으로 연결하고 이를 기반으로 답변을 생성하도록 하는 것이다. 분산된 고객 데이터의 지식 그래프화 및 내/외부 지식을 연계함으로써 보다 사실적인 정보 제공이 가능하다.

예시로 의료비 지원 범위를 상세하고 알고 싶을 때 일반적 생성형 AI 서비스는 포괄적인 의료비 정책에 대해 설명한다. 하지만 이와 같은 방법을 사용하면 실제 기업 내에 있는 의료비 지원 정책에 대해 소개한다.

이것이 가능한 이유는 지식 데이터의 형태가 주어, 서술어, 목적어 형태로 구성된 까닭이다. 솔트룩스에 따르면 이 구조는 트리플 형태로 불린다. 트리플은 논리적인 추론이 가능하며 LLM 관점에서 완벽한 문장으로 보여진다. 현재 마이크로소프트도 코파일럿 서비스에서 핵심 기술로 사용하고 있다.

독자적 기술을 바탕으로 소기의 성과도 발생했다. GPT-3.5 및 메타의 라마2와 비교했을 때 한국어 할루시네이션 자체 평가에서 약 40% 더 우수한 성능이 확인됐다. 또한 지식 그래프를 활용해 현재 인스턴스는 10억 개 이상이며 품질평가(QA) 정확도 역시 98% 이상을 달성했다.

다만 이런 방식은 단기간 시일 내에 가능한 것이 아니다. 솔트룩스는 지난 10여년간 구축한 아시아 최대의 지식 그래프와 기술 축적이 주효했다고 밝혔다.

솔트룩스 정용일 상무는 “전문 지식 분야로 갈수록 환각 현상이 더욱 증가하고 있다. 현실적으로 파라미터의 한계와 비용 때문에 최적화에 시간을 무제한으로 투자할 수 없다”며 “사용자 질문이 오게 되면 해당하는 정보를 지식 그래프에서 가져오고 이를 기반으로 실제 LLM에 적용하고 답변을 생성하는 방식”이라고 말했다.

솔트룩스 이경일 대표 역시 기술력에 대해 자신했다. 이 대표는 “루시아 GPT는 1테라바이트(TB)라는 정보의 사전 학습이 끝난 상태다. 책으로 환산하면 420만 권이다”며 “아시아 최대 규모의 지식 베이스와 그래프를 실시간으로 참조한다. 또한 프롬프트를 증강할 수 있는 기술로 환각 현상을 크게 줄이는 것이 가능하다”고 말했다.

한편 솔트룩스는 이와 관련된 ‘루시아 엔터프라이즈’도 선보였다. ▲언어모델 구축 솔루션 ‘랭기지 스튜디오’ ▲인지검색 솔루션 ‘서치 스튜디오’ ▲인공지능 기반 지식그래프 솔루션 ‘날리지(Knowledge) 스튜디오’ 등이 포함된다. 이 중 날리지 스튜디오는 고객의 정형 데이터를 지식 그래프로 전환하며 언어모델과 효과적으로 연결돼 더 정확하고 의미 있는 결과의 도출이 가능하다.

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지
이 기사와 관련된 기사
생성형 AI를 향한 네이버의 야심찬 도전, 제2막 ‘큐’
지난 8월 네이버는 하이퍼클로바X와 생성형 AI 기반 서비스를 선보이기도 했습니다. 이 중 생성형 AI 검색 큐는 자체 기술을 탑재해 할루시네이션 문제를 극복했다고 하는데요. 자세한 내용을 기사에서 확인해보시기 바랍니다.