구글의 BERT 모델을 기반으로 학습 데이터 추가, 한국어 최적화
BERT와 비교해 평균 성능 4.5%, 최대 7.4% 앞서
대표 딥러닝 플랫폼 지원, 공공 데이터로 공개··

[테크월드=이건한 기자] 한국전자통신연구원(ETRI)가 인공지능(AI) 분야의 국가 혁신기술 개발형 연구 과제인 엑소브레인(Exo-brain) 사업에서 최신 한국어 언어 모델인 '코버트(KorBERT)'를 공개했다. 

ETRI 홈페이지에 공개된 코버트 모델은 두 종류다. '구글의 기존 언어표현 방법에 더 많은 한국어 데이터를 입력한 언어 모델'과 '한국어의 교착어 특성을 반영한 언어 모델'이다.

딥러닝 분야에서 언어는 텍스트에 기술된 어절을 숫자로 표현하는 방식을 사용한다. 이를 위해 지금까지 주로 사용된 기술이 구글의 다국어 언어 모델 '버트(BERT)'다. 버트는 문장 내 어절을 한 글자씩 나눈 뒤, 앞뒤로 자주 만나는 글자끼리 한 단어로 인식하는 방식이다. 지난해 11월 공개된 후로 언어처리 11개 분야에서 괄목할만한 성능 향상을 이뤄냈다.

구글은 버트의 한국어 모델 개발에 40여만 건의 위키백과 문서를 활용했다. 하지만 ETRI는 여기에 23GB에 달하는 10년 치 신문 기사와 백과사전 정보를 더해 총 45억개의 형태소까지 학습시킨 모델을 개발했다.

자료=ETRI 제공

ETRI는 이번에 개발된 한국어 모델이 ▲ 의미역 인식 ▲기계 독해 ▲단락 순위화 ▲문장 유사도 추론 ▲문서 주제분류 등 5가지 항목에서 구글의 모델보다 성능 면에서 평균 4.5% 우수하다고 밝혔다. 특히 검색결과 집합에서 질문의 정답이 들어 있는 단락의 순위를 매기는 단락 순위화 항목에서는 7.4%나 높은 수치를 기록했다고 설명했다.

코버트는 대표적인 딥러닝 프레임워크인 파이토치(PyTorch)와 텐서플로우(Tensorflow) 환경 모두에서 사용할 수 있으며, 공공 인공지능 오픈 API · 데이터 서비스 포털에서 쉽게 찾아볼 수 있다.

현재 구글의 버트 방식은 약 512개 이상의 단어가 들어간 문서를 한 번에 처리하지 못한다. 이에 향후 연구진은 한 번에 더욱 많은 단어를 처리하고 검증 방법을 고도화한 모델을 개발할 계획이다.

한편 ETRI는 코버트를 올해 3월 한컴오피스 지식검색 베타 버전에 탑재했으며, 하반기에는 '법령분야 질의응답 API'를 공개하고 '유사 특허 지능형 분석 기술' 출시를 목표로 하고 있다.

이 밖에도 ETRI는 2017년부터 언어지능 기술 오픈 API와 기계학습 데이터를 공개해왔다. 지금까지 1300만 건 이상이 활용됐고, 산업체(42%), 대학교(34%), 개인(20%), 기타(4)의 개발자들이 사용하고 있다. 

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지
이 기사와 관련된 기사