새롭게 출시된 '신경망 기계번역' 한국어 포함 총 16개 언어 지원

구글이 새롭게 공개한 ‘구글 신경망 기계번역(GNMT)’은 머신러닝 전용칩 텐서플로우(TPU)를 사용함으로써 개발 예상 기간보다 약 23개월 단축시켜 13.5개월 만에 개발에 성공했다고 밝혔다.

2월9일 삼성동에 위치한 구글 서울 캠퍼스에서는 구글 본사에서 머신러닝 기술을 바탕으로 신경망 기계번역 시스템을 개발한 마이크 슈스터(Mike Schuster) 구글 리서치 박사와 화상 기자간담회를 진행했다.

마이크 슈스터(Mike Schuster) 구글 리서치 박사 화상 기자 간담회 모습

10년전 구글이 선보인 번역은 구문 기반 기계번역(PBMT) 방법을 사용했었다. 구문기반 번역은 입력 문장이 단어와 구 단위로 쪼개져서 하나하나가 개별적으로 번역되는 방식이다. 작년 하반기에 선보인 구글의 새로운 번역 시스템은 신경망 기계번역(NMT)으로 전체 입력 문장을 하나의 번역 단위로 간주하는 방식이다.

신경망 기계번역은 2016년 영어와 중국어로 첫 모델이 출시됐고, 2016년 12월에는 한국어, 일본어, 프랑스어, 스페인어, 포르투갈, 중국어, 독일어, 터키 등 총 16개 언어가 개선됐다.

마이크 슈스터 박사는 “구글의 개발자들은 개발 초기에 신경망 기계번역 모델을 개발 기간을 3년 이상 걸릴 것으로 예상했으나 실제로 개발된 기간은 13.5개월만에 프로젝트가 완성됐다”며 “이는 구글의 오픈소스 머신러닝 툴킷인 텐서플로우와 텐서 프로세싱 유닛(TPUs)을 활용했기 때문에 가능해진 것이다”라고 설명했다.

텐서플로우(TPU)는 구글이 자체적으로 개발한 ASIC이다. 구글은 TPU를 데이터센터에 활용하고 있기도 하다. TPU는 신경망 번역 모델 배포에 필요한 충분한 컴퓨팅 파워를 제공해주면서도 구글 번역 제품의 엄격한 지연 요구사항을 충족시킨다. 일례로 중국어-영어 번역은 하루에 약 1800만건이 발생되고 있으며 구글 번역이 지원하는 1만개 이상의 언어 조합 중 하나로 하루에 사용되는 컴퓨팅 파워 용량은 엄청나다.

구글의 머신러닝 전용칩 텐서플로우(TPU)

구글은 번역 품질평가를 위해서 여러개의 문장을 과거 구문기반 번역 버전과 최신 신경망 번역 버전으로 번역한 후 사람들이 비교해서 평가한다. 점수는 0~6점으로 평가 내리는데 과거 시스템과 현재 시스템과 점수가 얼마나 차이 나는지가 중요하다.

마이크 박사는 “과거 구글이 10년 동안 사용한 번역 시스템에서는 번역의 품질이 0.1만 향상되도 출시가 가능하다고 판단했었다. 그러나 이번 새로운 신경망 번역 시스템에서는 언어별로 평균 0.5점 이상의 개선 결과 나타났고 일부 언어는 1점 이상으로 향상됐다”고 말했다.

구글의 새로운 번역 시스템에서 한국과 영어는 0.94이점 개선됐으며, 중국어와 영어를 번역했을 때 0.6점이 개선됐다.

이 외에도 구글의 새로운 신경망 기계번역은 다중 언어 간 번역이 가능하도록 ‘제로샷 번역’을 구현해 냈다. 즉, 다중 언어 시스템이 특정 언어 조합에서 학습한 “번역 지식”이 다른 언어 조합으로 전이될 수 있다. 실제로 트레이닝 하지 않았지만 한국어-일본어, 일본어-한국어도 원활하게 번역이 가능한 것이다.

현재 구글 번역은 103개 언어를 지원하고 있고, 신경망 기계번역은 16개의 언어만 지원하고 있다. 한국-일본, 일본-한국 언어로의 번역은 아직까지 구글 신경망으로 지원하는 언어조합은 아니다.

마이크 박사는 “기계번역은 아직 미완성이다. 신경망 번역은 아직도 인간 번역가라면 절대 하지 않을 단어 누락, 고유명사 및 희귀 용어 오역, 문단 또는 페이지 문맥을 고려하지 않은 문장 번역과 같은 중대한 오류를 범한다”라며 “이번 신경망 기계번역은 더 나은 품질의 번역을 제공하기 위해 의미 있는 이정표 역할을 한다. 구글의 목표는 전세계의 언어의 번역을 지원하는 것이다”라고 포부를 밝혔다.

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지