음성AI의 발전 배경과 동향, 플레이어, 현황 등

[테크월드=배유미 기자] 아침을 스마트폰 음성 AI 비서의 뉴스 브리핑 알람으로 맞이한다. 외출 준비는 스마트 스피커가 틀어주는 ‘아침과 어울리는 음악’과 함께 한다. 말만 했을 뿐인데 맛집도 찾고, 통화도 할 수 있다. 음성 AI 비서의 내비게이션과 함께 귀가한 후에는 다시 스마트 스피커를 통해 필요한 물품을 구매하고, 내일 날씨를 확인한다.

이처럼 음성 AI 기술은 우리 일상 속에서 어렵지 않게 발견할 수 있다. 스마트폰, 태블릿PC 등의 단말을 넘어 음성 AI 기술을 핵심으로 하는 스마트스피커가 등장했다. 최근에는 스마트TV, 자동차까지도 확대 적용되고 있다. 이처럼 기술의 발전과 함께 음성 AI 기술은 우리의 삶에도 더욱 밀접하게 스며들어가고 있다.

 

등장∙상용화 배경

음성 AI 기술은 사용자의 음성 명령을 스마트폰이나 태블릿PC, 스마트스피커 등 단말기가 받아들이고 수행하는 기술을 말한다. 이 기술의 시작은 1954년 IBM과 조지타운대학이 진행한 기계번역 기술 개발 프로젝트부터 시작된다. 하지만 데이터를 처리할 수 있는 프로세서가 없었기 때문에 이 기술은 2000년대 중반까지도 상용화되지 못했다. 이후 스마트폰이 발달하고 음성 AI 기술이 탑재되면서 음성 AI 기술은 비약적으로 발전한다.

처음 음성 AI 비서는 단순한 명령을 알아듣고 수행하는 정도였다. 하지만 여러 분야에 적용되고 이에 따른 데이터가 축적되면서, 발전이 가속화되고 있다. 구글은 그간 축적해 온 음성 데이터를 학습시켜 어시스턴트의 음성 인식 오류를 줄이고, 정확도를 향상시키는 딥러닝 기법을 활용했다. 그 결과 2013년까지만 해도 80% 아래에 머물던 정확도는 2017년 인간 속기사 수준의 95%까지 향상됐다.

한편, 삼정 KPNG 경제연구원 보고서에 따르면, 음성 AI 기술이 발전하면서 그 편의성을 체험한 사용자들은 문자 기반보다 음성 기반을 선호하기 시작했다. 이에 따라 음성을 1차 입력수단으로 활용하는 유저들도 증가하고 있다.

 

음성 AI의 구조

음성 AI 시스템과 플랫폼의 근간이 되는 기술은 ▲딥러닝 ▲빅데이터 ▲클라우드다. 사용자가 특정 음성을 디바이스에 입력하면, 해당 음성은 딥러닝과 빅데이터 기반으로 인식하는 과정을 거친다. 이후 이것을 컴퓨터가 이해할 수 있는 자연어 처리를 통해 클라우드로 전달한다. 입력 정보는 클라우드 상에서 시맨틱 분석과 지식 데이터베이스를 토대로 다음 임무를 수행한다. 여기서 시멘틱은 컴퓨터가 정보자원의 뜻을 이해하고, 논리적 추론까지 할 수 있는 차세대 지능형 웹을 말한다. 다음으로 결과값을 생성하고 이를 다시 음성과 합성하거나 서비스를 실행시켜, 사용자가 이용할 수 있도록 한다.

음성 AI 시스템 구성도

음성 인식 기술은 음성 신호로부터 문자 정보를 출력한다. 2010년대 이후 등장한 딥러닝 기술이 적용되면서 음성 인식의 정확도가 비약적으로 향상됐다. 딥러닝은 데이터가 많아질수록 성능과 정확도가 높아지기 때문에 음성 인식 기능 향상을 위해서는 방대한 언어 자료를 수집하고 분석하는 데이터 분석 기술이 필요하다.

이 음성 AI의 핵심은 ‘디코딩(Decoding)’이다. 디코딩이란 음성 신호를 문자 기호로 해석하는 것을 의미하며, 이 알고리즘을 디코더(Decoder)라고 부르기도 한다. 이 디코딩 단계에서는 입력된 음성을 음향 모델(Acoustic Model, AM)과 언어 모델(Language Model, LM) 벡터와 비교한다. 이후 그 값을 토대로 최종 단어열을 결정하는 방식으로 인식 과정을 거친다.

상용 서비스에 적용되는 음향 모델은 대부분 은닉 마르코프 모델(Hidden Markov Model, 이하 HMM) 기반으로 이뤄졌다. HMM은 공개된 출력값만으로 숨겨진 정보를 추정하는 모델을 말한다. 주로 음성 AI, 자연어 처리, 몸짓 인식 등과 같이 대량 출력된 데이터를 통계적으로 패턴 분석해 입력된 정보를 추론하는 데 응용된다. 이후 2010년에 들어서면서 딥러닝 기반의 HMM∙DNN(Deep Neural Network) 방식으로 단어 오류율 기준으로 약 20% 정도의 성능 향상을 이끌었다. DNN은 입력층(input layer)과 출력층(output layer) 사이에 다중의 은닉층(hidden layer)을 포함하는 인경 신경망을 말한다.

최근에는 시퀀스-투-시퀀스(sequence-to-sequence) 방식의 RNN(Recurrent Neural Network) 기반으로 속도와 성능 면에서 좋은 결과를 내기 시작했다. 과거의 출력 데이터를 재귀적으로 참조해 시간의 흐름에 따라 변화하는 데이터를 학습할 수 있다. 음성 인식에서도 번역어(end-to-end) 학습 방식이 발전하면서 일련의 오디오 특징을 입력으로 일련의 글자(character) 또는 단어를 출력하는 단일 함수를 학습할 수 있게 됐다.

 

음성 AI 시장 주요 플레이어

음성 AI 플랫폼 출시 타임라인

글로벌 음성 AI 시장에 빠르게 뛰어든 기업은 대부분 테크 자이언트 기업이다. 그 중 가장 먼저 출시된 플랫폼은 애플 시리다[그림 2]. 애플은 2011년 10월 아이폰4S에 시리를 탑재하면서 음성 AI 시장경쟁의 신호탄을 쐈다. 이어 아마존이 2014년 스마트스피커 에코(Echo)를 출시하면서 플랫폼 ‘알렉사’를 선보였다. 알렉사는 사용자의 음성을 클라우드에서 분석하고, 명령을 수행하는 방식으로 작동된다.

구글은 2012년 구글 나우(Google Now)를 출시했으나, 2015년 5월 공개한 AI 음성 비서 구글 어시스턴트에 통합하려는 흐름을 보이고 있다. 강력한 검색엔진이라는 특성과 방대한 사용자 데이터를 토대로 경쟁력을 확보했다. 실제로 사용자로부터 명령에 대한 응답 결과가 가장 뛰어나다는 평가를 받고 있다. 그 다음 2015년 12월 마이크로소프트 윈도우용 코타나가 출시됐다. 해당 플랫폼은 윈도우에서만 작동된다는 특성상 B2B 시장을 주로 공략하고 있다.

중국에서는 바이두가 2017년 ‘두어’ 플랫폼을 출시했다. 두어의 현 음성 AI 성능은 97% 이상으로 정확하며, 2018년 8월에는 두어를 설치한 기기가 1억 대를 넘어섰다.

국내에서는 가전 업체, 통신사, 인터넷 플랫폼 기업이 시장을 주도하고 있다. ▲삼성 ‘빅스비’ ▲LG ‘Q보이스’ ▲SK텔레콤 ‘누구’ ▲KT ‘기가지니’ ▲네이버 ‘클로바’ ▲카카오 ‘카카오’ 등이 포함돼 있다. 무엇보다 국내 음성 AI 플랫폼은 한국어에 특화된 음성 인식∙합성 성능과 IPTV 셋톱박스 기능, 검색, 팟캐스트나 음악 스트리밍 등 국내 인터넷∙모바일 서비스와의 연동을 강조하고 있다. 이를 위해 업체 간 파트너십도 빈번하게 체결하고 있으며, 합종연횡도 단행하고 있다.

현황과 동향

한편, 현재 제공되고 있는 음성 인식은, 단말에서 음성 녹음과 데이터 처리를 수행한다. 이후 인식과 서비스를 위한 클라우드 서버로 전송해 작업을 진행하고, 그 결과를 단말로 전송한다. 이를 서버-클라이언트 방식이라 하는데, 이는 네트워크가 연결된 상태에서만 가능하다. 따라서 오프라인 상태에서도 음성 인식 서비스를 제공할 수 있는 방식에 대한 연구도 필요하다.

한국 음성 AI의 경우, 한국어 특성상 단어가 아닌 형태소 기반의 인식 단위를 사용한다. 또한, 발음상 변화하는 음가가 있어 음가 기반 의사 형태소로 어휘 분할을 수행하는데, 이를 위해서는 단어가 아닌 말뭉치 데이터 확보를 비롯한 한국어 특화 음성 언어 처리 기술을 확보해야 한다. 통계적 방식의 한계점을 극복하고 비정형 자연어를 효과적으로 인식하기 위해 업계에서는 연산 처리 속도와 정확도 향상을 위한 기술, 딥러닝 기술을 활발하게 연구하고 있다.

최근 음성 인식과 의미 이해를 하나의 엔진에서 처리하는 음성-의미 해석(Speed-to-Meaning) 기술 개념이 등장하고 있다. 이는 기기 제어와 같은 음성 명령이나 간단한 조회 등에 적합하다. 또한, 업계에서는 이후 복합 질문에 대한 답도 한 번에 내놓을 정도로 발전할 것이라고 기대하고 있다. 앞으로 AI 음성 기술 발전의 귀추가 주목된다.

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지
이 기사와 관련된 기사