[테크월드뉴스=조명의 기자] 눈으로 보는 통화 앱 ‘비토’를 운영 중인 리턴제로에서 자체 개발한 음성인식(ASR) 모델 ‘소머즈(Sommers) 엔진’이 한 단계 더 진화했다.

리턴제로는 비토에 이용자들이 더욱 빠르고 정확한 문자 변환 서비스를 경험할 수 있도록 새로운 인공신경망 언어모델 NNLM(Neural Net Language Model)을 도입해 최적의 서비스 환경을 선보인다고 밝혔다.

그동안 리턴제로는 칼디(Kaldi) 기반의 음성인식 모델에 리턴제로의 독자적인 기술을 결합해 비토 서비스를 제공해 왔다. 국내 AI 음성인식 시장에서 보편적으로 활용되고 있는 칼디는 음향모델, 음성모델, 언어모델 등 여러가지 모듈로 이뤄져 있다. 다만, 칼디 방식의 경우 데이터가 방대해질 경우 전체 연산 과정에 소요되는 시간과 비용이 커져, 보다 빠르고 효과적인 모델 고안이 필요했다.

리턴제로는 이런 점에 착안해 NNLM 모델을 새롭게 선보이며 한발 더 앞서나간 서비스를 선보이게 됐다. NNLM이란 AI가 인식한 통화 내용을 인공신경망 언어모델이 한 번 더 평가해 발화자가 말한 내용과 더 일치한 텍스트로 변환할 수 있도록 맥락에 맞게 다듬어 보여주는 것이 특징이다.

이 기술은 일반 이용자는 물론, 기업을 대상으로 한 서비스에도 접목된다. 이에 따라 리턴제로의 음성인식 기술을 도입·활용 중인 B2B 시장 전반에도 한층 고도화된 AI 음성인식 서비스가 확산될 전망이다. 리턴제로는 앞으로 업무와 관련된 특정 전문 용어를 수반하는 통화 내용에 있어서도 더욱 고도화된 솔루션을 제공할 수 있을 것으로 기대하고 있다.

또한 리턴제로는 이번 NNLM이 적용된 음성인식 기술을 오픈API로 공개하기 위해 빠른 시일 내에 개발자 웹사이트를 론칭하고, 모든 개발자와 기업이 활용할 수 있도록 열린 생태계를 제공할 예정이다.

리턴제로 이참솔 대표는 “비토가 지속적인 서비스 업데이트로 꾸준히 진화하고 있다. 특히 이번 신규 언어모델 도입을 기점으로 더욱 완성도 높은 음성인식 엔진을 경험할 수 있을 것”이라며 “리턴제로는 앞으로도 자체 음성인식 기술을 고도화해 나가며 국내 인공지능 스타트업과 개발자 생태계를 지원할 계획”이라고 밝혔다.

한편, 리턴제로에서는 E2E(end-to-end) 음성인식 모델 탑재를 앞두고 있다. E2E는 하나의 모듈만을 가지고 음향, 언어, 발음 등 음성을 인식하는 전체 과정을 처리할 수 있는 기술로, E2E 모델을 적용할 경우 음성인식 효율성이 대폭 강화될 것으로 보고 있다. 
 

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지
이 기사와 관련된 기사