EP&C News UPDATED. 2017.9.22 금 16:57

상단여백
HOME EM FOUCS 포커스 뉴스레터
신경망 번역, 데이터베이스 확보와 오픈소스 플랫폼 경쟁 시작(3)머신러닝 위한 GPU 각광, 구글 TPU 자체 개발, 네이버 플랫폼 개발 집중
이나리 기자 | 승인 2017.04.25 15:21

[EPNC=이나리 기자] 2007년 구글이 웹 기반 자동번역기를 무료로 공개했을 때, 사람들은 클릭 한번으로 여러 문장들이 순식간에 번역되는 기능을 보고 놀라움을 금치 못했었다. 하지만 예전의 번역기는 동음이의어와 다의어를 구별 못하거나 어순과 표현이 많이 어색해 마치 외래어처럼 번역되는 경우가 많았다. 이처럼 번역기는 번역 결과가 만족스럽지 않았음에도 불구하고 모든 문장을 사람이 직접 번역하는 것보다 시간을 절약할 수 있었기 때문에 지금까지 유용하게 사용돼 왔다.

그러나 최근 번역기는 딥러닝과 신경망 기술이 적용된 신경망 기계번역(GNMT, Google’s Neural Machine Translation)으로 발전되면서 변역 결과물이 눈에 띄게 향상됐다. 예전보다 번역의 오류 가능성이 대폭 감소하고, 보다 자연스러운 번역이 가능해졌다.

더 나아가 번역 기술은 텍스트 뿐 아니라 음성 번역, 이미지 번역까지 가능해지면서 음성인식 기술도 함께 급부상하고 있다. 향후 통번역 서비스는 스마트폰, 스마트워치, HMD, 가정용 음성로봇 서비스 등 다양한 디바이스에 접목돼 국제회의, 여행, 교육 등 다양한 산업에서 활용될 것으로 기대된다. 신경망 번역 기술을 지원하기 위해서는 데이터베이스의 확보와 인공지능을 지원하는 알고리즘과 플랫폼 개발 등이 뒷받침돼야 한다.

기계 번역 시장과 국내‧외 기업별 번역기술 현황, 번역기술로 인해 파생되는 산업 전망에 대해 1, 2, 3회에 걸쳐 알아보겠다.


◇ 신경망 번역, 데이터베이스 확보와 오픈소스 플랫폼 경쟁 시작

인공 신경망 기계번역의 발전을 위해서는 데이터베이스 뿐 아니라 빠른 연산처리를 돕는 하드웨어 칩과 플랫폼 구축이 중요하다.

한글컴퓨터의 인공 신경망기계 번역 지니톡을 개발한 김무종 한컴인터프리 개발팀장은 “인공신경망 방식이 도입된 기계번역에서는 데이터를 얼마나 확보했는지가 경쟁력의 척도라는 것이 업계의 중론이다. 인공지능 기술은 모두에게 공개된 오픈 소스이기 때문에 큰 차이가 없고, 얼마나 많은 데이터를 축적했느냐가 기계번역의 품질을 결정하는 열쇠라는 뜻이다. 구글과 국내 최대 포털업체인 네이버가 유리한 점도 여기에 있다”고 설명했다. 즉, 자연스러운 번역을 위해서는 여러 예문들을 확보하고, 신경망을 학습시키기 위한 데이터 확보가 중요하다.

이에 따라 한국전자통신연구원(ETRI)의 경우에는 국내 기업들이 한국어에 특화된 번역 기술을 개발할 수 있도록 적극적으로 지원하고 있다. ETRI는 2011년부터 한국어, 영어, 일본어, 중국어 등의 언어음성 DB를 구축해 음성인식, 언어번역 분야 소프트웨어 개발 등에 활용할 수 있도록 산업체와 학계 등에 배포하고 있으며, 2016년에는 독일어, 러시아어, 아랍어, 베트남어를 추가해 DB를 확대했다. 이 4개 언어의 데이터베이스에는 대화체 음성DB 약 36만 문장과 각 외국어의 한국어 대역문장 5만 개씩 20만 문장이 담겨져 있다.

이영직 ETRI 자동통역연구실 박사는 “음성DB를 이용한 상용제품은 국내 DB가 없으면 외국에서 개발된 음성인식과 번역 엔진을 도입해 탑재해야하기 때문에 큰 비용이 들고 관련 기술 발전에도 걸림돌이 된다”며 “ETRI 음성DB는 국가DB사업에서 요구하는 고품질 수준으로 국가지정 감리업체 검사에서 합격했다. 이 DB를 활용하면 언어음성기술의 완성도를 높일 수 있어 신규시장 창출과 국제경쟁력 강화에 기여할 것”이라며 DB의 중요성을 강조했다.

인공신경망 기계번역은 빠른 연산처리를 위해서 하드웨어 칩의 지원도 중요하다. 구글은 ASIC 칩인 TPU를 자체 개발해 데이터센터에 구축해 머신러닝에 활용하고 있다. 마이크로소프트는 엔비디아의 협업으로 GPU를 구축했고, 이를 활용한 빠른 계산 능력 덕분에 대화 음성과 텍스트 인식을 인간과 같은 수준으로 끌어올릴 수 있었다고 밝혔다.

마이크로소프트 측은 “GPU의 계산 능력 덕분에 일부 랭귀지 모델의 트레이닝 시간이 이전에 수개월 걸리던 것에서 몇 주로 단축됐다”며 “트레이닝 시간의 단축으로 인해 더 많은 학습과 실험을 할 수 있었다”고 말했다.

네이버도 모바일앱 파파고에 적용된 인공신경망 번역을 네이버 어학사전에 적용하기 위해 GPU를 주문한 상태며, 이를 활용해 올해 상반기 중으로 네이버 웹 어학사전에 먼저 적용할 예정이라고 전했다.

그밖에 인공신경망 기계번역 기술을 개발하기 위해서는 인공지능 플랫폼이 핵심이다. 번역 서비스를 제공하는 구글, IBM, 마이크로소프트 등의 해외기업과 네이버, 시스트란 같은 국내 기업들은 인공지능, 플랫폼 자체 개발을 통해 인공신경망 기계번역 기술을 개발해 나가고 있다.
구글은 자사의 오픈소스 머신러닝 툴킷인 텐서플로우와 TPU(Tensor Processing Unit)를 활용함으로써 예상했던 개발 기간 보다 약 23개월 단축시켜 13.5개월 만에 2016년 9월 신경망 기계번역을 선두로 출시했다.

구글의 신경망 기계번역 시스템을 개발한 마이크 슈스터(Mike Schuster) 구글 리서치 박사는 “텐서플로우와 TPU는 신경망 기계번역 모델 배포에 필요한 충분한 컴퓨팅 파워를 제공해주면서 구글 번역 제품의 엄격한 지연 요구사항을 충족시켰다”며 “구글은 텐서플로우를 공개하면서 본격적인 인공지능 플랫폼 개방전략을 추진하고 있다”고 설명했다.

구글 AI 오픈소스 플랫폼 텐서플로우

구글과 비슷한 시기인 2016년 11월 신경망 기계번역 시스템을 발표한 마이크로소프트도 자사의 인공지능 수퍼 컴퓨터와 코그니티브 툴킷을 활용함으로써 영어, 독일어, 아랍어, 중국어, 일본어 등 10가지 언어를 동시에 출시할 수 있었다고 밝혔다. 또 IBM도 기존 하드웨어 중심에서 인공지능으로 역량을 집중하면서 왓슨을 기반으로 플랫폼을 공개하며 구글과 경쟁구도를 펼치고 있다.

시스트란의 경우에는 신경망기계 번역을 개발하기 위해 5만 시간이 넘는 언어모델 트레이닝을 실시했으며, 미국 하버드대의 자연어처리연구소(NLP) 연구소에서 시작된 오픈소스 기반 신경망 기계번역 시스템 프로젝트에도 적극 참여하고 있다고 밝혔다. 또 페이스북이 공개한 인공지능 오픈소스 기술인 ‘토치’도 사용하고 있고, ‘시퀀스 투 시퀀스 러닝’이라는 기술을 통해 오픈소스 생태계에도 기여하고 있다고 밝혔다. 네이버도 네이버랩스를 통해 자체적으로 인공신경망 오픈소스 플랫폼을 개발했다.

번역 서비스를 제공하는 기업들은 오픈소스 플랫폼을 통해 인공신경망 기계번역 시장을 선점하고 향후 다른 비즈니스로 플랫폼을 확대한다는 전략을 세우고 있다. 그 이유는 인공신경망 기계번역 기술이 통번역 분야 이외의 산업인 여행, 교육 등 다양한 분야에 접목돼서 향후 이종산업 간의 서비스를 확대할 수 있을 것으로 기대되고 있기 때문이다. 이와 관련해 번역기는 스마트폰 뿐 아니라 시계, 안경, 단말기 등 다양한 디바이스로 확대고 있다.

기계번역에서 인공 신경망 기술이 접목됨으로써 번역 서비스 시장은 제 2막이 시작됐다. 번역기술은 앞으로 다양한 산업으로 활용가능성이 큰 만큼 기업들의 기술 개발은 앞으로 더 활발해질 것으로 기대된다.

※ 관련 기사
어색한 번역은 그만! AI 탑재한 신경망 번역 시대 열리다(1)
인공신경망 번역 기술 확보 경쟁은 지금부터!(2)

#신경망 번역#오픈소스 플랫폼#GPU#데이터베이스

이나리 기자  narilee@epnc.co.kr

<저작권자 © EP&C News, 무단 전재 및 재배포 금지>

이나리 기자의 다른기사 보기
icon인기기사
여백
여백
여백
여백
여백
여백
여백
icon
여백
여백
여백
신제품
여백
여백
여백
여백
여백
Back to Top