음성인식 AI 시장 고속 성장…기술 고도화 ‘열전’
[테크월드뉴스=조명의 기자] 위드코로나 시대로 접어들며 비대면 소통과 디지털 커뮤니케이션이 익숙해지고 있는 가운데 음성인식 AI 시장이 고속 성장하고 있다. 음성인식 AI는 스마트폰이나 자율주행 차량, 각종 전자기기를 비롯한 다양한 산업군에서 빠른 속도로 진화하며 생활 속에 녹아들고 있다.
국내 시장도 예외는 아니다. 음성인식 시장 속에서도 특히 까다롭다고 알려진 한국어였지만, 수요가 급속히 늘기 시작하면서 더 이상 늦출 수 없는 시대가 왔다.
실제 업계 전문가들에 따르면 한국어 음성인식 인공지능 분야는 국내외 IT 대기업의 기술연구는 물론 전문 스타트업까지 뛰어들면서 새로운 전환기를 맞이하고 있다는 분석이다. 대표적인 음성인식 기반 서비스로 비토가 꼽히고 있으며, 네이버, 구글도 기술 고도화를 통해 영역을 확대해 나가고 있는 추세다.
국내 최초의 AI전화 ‘비토(VITO)’를 개발한 리턴제로는 카이스트(KAIST) 전산학과 출신이자 카카오 전 초기 멤버 3명이 주축이 돼 2018년 설립한 AI 스타트업이다. 카카오에서 엑시트에 성공한 이들은 2016년 당시 알파고가 바둑천재 이세돌을 이긴 사건을 보고 인공지능 시장에 매료되며 곧 다가올 미래 AI 시대를 준비하기 시작했다.
비토는 국내에서 가장 많이 쓰이는 한국어 음성 인식 엔진이다. 8월 말 기준으로 비토가 처리한 한국어 오디오 처리 시간은 3380만 초로 약 391일 이상에 달하며, 매일 음성인식 및 화자분리를 처리하고 있는 통화 건수도 평균 6900만 건에 육박할 정도로 방대한 음성 데이터를 처리하고 있다.
리턴제로는 통화 음성을 텍스트로 바꿔주는 STT(Speech To Text) 기술 기반 ‘소머즈 엔진’, 사용자의 목소리를 분석해 화자를 분석하는 ‘모세 엔진’ 등을 자체 개발해 원천 기술을 보유하고 있다. 한국어 자유발화 데이터 레이블링 내재화를 통해 서비스 고도화를 이뤄가는 중이다. 비토는 ARS의 음성까지 검출해내는 화자 분리 기술과 전화 수신 시 기억나지 않는 상대방과의 직전 통화 내용을 보여주는 ‘통화 전 미리보기’ 서비스를 업계 최초로 선보였다.
높은 정확도로 전화 업무가 많은 비스니스맨, 일반인, 청각 장애인 등의 일상에 편리함을 가져다주고 있는 비토는 최근 기업 고객 문의가 늘면서 B2B 사업 확장에도 나서고 있다.
비토는 이용자가 늘어날수록 더 많은 데이터가 만들어져 똑똑해지는 AI 학습 선순환 구조를 바탕으로 음성인식 AI 기술력을 높여가고 있다. 리턴제로 전문가들은 한국어 음성인식 하면 비토가 떠오를 수 있도록 서비스를 발전시켜 업계를 선도해 나가겠다는 포부다.
네이버는 2021년 7월 ‘하이퍼클로바’ 기반으로 성능이 강화된 음성인식 엔진 ‘네스트(NEST)’를 클로바노트에 탑재해 음성인식 정확도를 높였다. 네스트는 기존에 일일이 음성과 텍스트를 매칭시키는 데이터 레이블링 방식에서 벗어나 데이터 자체로 혼자 학습하는 자기주도학습 기법으로 학습 효율성을 높였다. 이에 따라 기존 대비 음성인식 정확도가 약 30%가량 향상됐다. 참석자별로 음성 인식 결과를 분리하는 화자 인식 엔진 ‘WISE’도 성능을 꾸준히 개선하고 있다. 최근에는 관련 연구가 음성 기술 분야의 세계 최대 학회인 ‘인터스피치 2021’에서 발표되기도 했다.
네이버는 음성인식 기술을 지속해서 고도화하는 한편, 편리한 사용자 경험을 제공하기 위해 새로운 기능도 추가 중이다. 최근에는 한국어뿐만 아니라 영어와 일본어도 인식이 가능해져, 외국어 강의나 컨퍼런스콜 등에 활용도가 높아질 전망이다.
일찍이 음성인식 기술 개발에 앞장서 온 구글은 글로벌 포털 사이트 구글과 모바일 운영체제(OS) 안드로이드, 유튜브 등을 통한 방대한 음성 데이터를 보유하고 있다. 구글의 음성인식 기술은 한국어 시장에서도 가시적인 성과를 보이는 중이다.
2021년 5월 구글은 미국 캘리포니아 마운틴뷰 본사에서 열린 개발자 회의에서 인공지능 대화 모델 ‘람다’를 소개했다. 람다는 ‘대화 언어 모델(Language Model for Dialogue Applications)’의 약자로, 기능을 고도화해 답이 없는 질문에도 인간과 같은 자연스러운 대화가 가능한 것이 특징이다. 이날 현장에서는 람다가 적용된 행성 명왕성과 종이비행기가 인간의 질문에 답을 하는 모습이 시연됐다. AI 람다가 자신을 명왕성이나 종이비행기로 인식하고 인간의 추상적인 질문에 알맞게 대화한 것이다. 구글은 이 기술을 음성인식 비서인 구글 어시스턴트와 검색 기능 등에 도입할 계획이다.
구글은 람다의 기능이 텍스트로 제한되는 점을 개선하기 위해 멀티모달 모델인 MUM(Multitask Unified Model, 멈)도 함께 공개했다. 멈은 75개 이상의 언어로 동시에 학습된 언어모델이다. 텍스트 외에도 이미지, 비디오 등 다양한 형태의 정보를 동시에 이해할 수 있는 점이 특징이다.
지난 2016년 공개한 AI 비서 ‘구글 어시스턴트’도 약진을 거듭하고 있다. 구글 어시스턴트는 특정 장소나 시간을 설정해 음성메모를 남기면 설정한 시간 또는 장소에서 스마트폰이 내용을 알려주는 음성인식 서비스다. 구글은 기존에 제공하던 집안의 가전제품에 연동되는 홈 서비스(IoT)에 이어 최근 차량용 구글 어시스턴트 드라이빙 모드를 선보이기도 했다.