AI 커스텀 보이스의 등장과 남은 과제

요즘 운전자들이 자동차에 탑승해 가장 먼저 하는 일은 내비게이션으로 목적지를 지정하는 일이다. 특히 “독산 사거리 앞 우회전입니다”처럼 주요 길목에 진입하기 전 미리 음성으로 안내해 주는 기능은 사용자가 화면을 보지 않고도 운전에 더 집중할 수 있도록 도와주는 편리한 기능이다. 그런데 내비게이션은 이를 위해 모든 주소와 도로 이름이 녹음된 음성 파일을 갖고 있는 걸까? 

그런 궁금증이 들 수 있지만 물론 현실적으로 불가능한 일이다. 도로와 주소 정보는 셀 수 없이 존재하며, 계속 생겨나고 사라지기를 반복하기 때문이다. 따라서 내비게이션 안내 음성 서비스에는 주로 텍스트를 음성으로 변환해주는 음성합성 기술이 활용된다. 

음성합성 기술의 발전 과정

과거 음성합성은 사용 빈도가 높은 문장들을 녹음하고, 녹음 음원을 음소 단위로 분리해 변환하고자 하는 텍스트로 재결합(합성)하는 방법을 주로 사용해왔다.

이런 방식을 ‘연결합성(Concatenative synthesis)’ 또는 ‘USS(Unit Selection Synthesis)’라고 부른다. 이름처럼 음소 단위의 유닛으로 분리된 음성을 분리해 데이터베이스로 구축하고, 텍스트가 입력되면 데이터베이스에서 적절한 유닛을 선택해 순서대로 합성하는 간단하고 직관적인 방식이다.

원음을 분리한 뒤 합성하는 방법은 원음의 음질을 그대로 표현할 수 있지만 생각보다 많은 수의 유닛을 필요로 한다. 같은 음소, 같은 단어라 하더라도 문맥에 따라 발성이 모두 달라지기 때문이다.

또한 문장의 운율을 예측하고, 끊어 읽는 정도를 결정하는 등의 복잡한 과정에도 특정 유닛이 필요한데, 데이터베이스에 그와 맞는 적절한 유닛이 없는 경우도 문제다. 이 경우 대체 유닛이 사용되는 과정에서 결국 매끄럽지 못한 합성음이 만들어지는 문제 역시 연결합성 방식의 한계라 할 수 있다.

통계기반 파라미터 음성합성(Statistical parametric speech synthesis)기술은 연결합성의 단점을 보완한 방식이다. 음원을 특정 성분의 파라미터로 추출한 뒤 HMM(Hidden Markov Model) 등의 통계 기법으로 모델링하고, 텍스트가 입력되면 훈련된 모델로부터 파라미터를 생성해 목소리로 만들어낸다.

음성의 특징을 모델링하기 때문에 연결합성 대비 10분의 1 수준의 데이터만 있으면 개발할 수 있다는 것이 장점이다. 또 용량이 작아 모바일 기기에 탑재하기도 좋다. 다만 음성 파라미터를 예측해 음성으로 변환하는 단계에서 일정 부분 손실이 발생하므로 합성음의 운율이 원음보다 부자연스럽고 음질이 다소 낮은 것은 단점이다.

이처럼 두 방식의 장단점이 뚜렷한 까닭에 연결합성과 통계기반 음성합성은 구동 환경과 음원 수집 여건 등을 고려해 선택되고 있으며, 다양한 분야에서 사용되고 있다.

 

인공지능 음성합성 기술의 등장

그리고 최근 인공지능(AI) 기술이 대두하면서 기존 음성합성 기술의 단점을 극복하기 위한 방법으로 음성합성에도 AI가 접목되고 있는 추세다. 다만, 초기 AI 기반 음성합성 기술의 수준은 통계 기반 음성합성 기술과 크게 다르지 않았다.

음성의 특징 파라미터를 통계 기반으로 예측하던 것에서 AI로 예측해 운율과 음질이 개선되긴 했지만, 통계 기반 음성합성기와 마찬가지로 입력 텍스트의 문맥 정보를 분석하는 한계는 개선되지 않아 여전히 낮은 음질은 단점이었다.

그러나 텍스트나 음원의 전처리 과정 없이 입력 텍스트로부터 바로 음성을 예측하는 구글의 타코트론(Tacotron) 기반 음성합성기가 등장하기 시작한 이후 AI 기반 음성합성 기술은 비약적인 성장을 이루기 시작했다. 전처리 과정이 사라진 음성합성 기술은 텍스트와 음원 사이의 연관성을 AI가 스스로 학습하므로 실제 사람이 말하는 것과 같은 자연스러운 합성 품질을 보였으며, 개발 장벽도 한층 낮아졌다.

인공지능 음성합성기의 음성 합성 구조 단순화

AI 기반의 음성합성 학습 기법은 사람이 말을 배우는 과정과 유사하다. 처음에는 옹알이만 하던 아기가 점차 주변의 목소리를 듣고 학습하며 말하는 법을 깨우치는 것처럼, AI 음성합성기의 학습 과정도 처음에는 잡음부터 시작해 옹알이 과정을 거쳐 일정 시간이 지난 뒤엔 또렷한 발성이 가능해진다. 

 

커스텀 보이스의 등장

소비자와 밀접하게 닿아 있는 콘텐츠나 제품일수록 고유의 캐릭터성은 매우 중요하다. 그래서 기업은 보통 로고나 이미지 캐릭터를 만들 때 기업의 정체성을 한눈에 담을 수 있도록 하는데, 그 요구는 이제 기업만의 고유 목소리를 만드는 것까지 확장되고 있다.

스마트 스피커, 내비게이션 등 소비자와 맞닿아 있는 음성 서비스가 점점 확대되면서 기업은 고유 서비스에 대한 정체성을 부각하기 위해 기존의 목소리를 사용하는 것에서 개별 서비스에 특화된 자신들만의 목소리가 필요하게 됐다.

대중들 역시 이제는 정형화된 기계음 대신 또박또박하고 정확한 목소리, 그리고 상황과 감정에 따라 달라지기도 하고 때론 어눌하거나 말끝을 흐리며, 특정 인물이나 캐릭터를 떠올릴 수 있는 ‘사람 같은’ 목소리를 원하는 추세다.

음성합성 목소리 요구의 변화

AI 음성합성기를 이용한 커스텀 보이스

AI 음성합성기는 적은 데이터로도 빠르게 ‘사람 같은’ 음성을 만들어낼 수 있다. 또 음성을 유닛으로 분리하거나 통계적으로 모델링 하지 않고, 데이터의 양상을 학습하기 때문에 발성 스타일이 정형화되지 않는 목소리도 학습할 수 있어 목소리 선택의 폭이 넓다.

이 점을 활용하면 전문 성우의 목소리뿐 아니라 연예인, 개인의 목소리 등 다양한 스타일의 음성과 이미 녹음된 음원도 새롭게 학습할 수 있다. 즉 AI 음성합성기가 등장하면서 고유의 브랜드를 표현하는 커스텀보이스 제작 시장이 크게 넓어졌다고 볼 수 있다. AI 음성합성기를 활용하면 전문 성우를 섭외했을 때보다 훨씬 낮은 비용, 더 빠른 시간 내에 음성 콘텐츠를 개발할 수 있는 것도 장점이다.

이런 AI 음성합성기에는 전이학습(Transfer learning)이 활용된다. 찰흙으로 인형을 만들 때 흙덩어리에서 시작하는 것 보다 이미 만들어진 찰흙 인형을 변형해 만드는 것이 더 쉬운 것처럼, 전이학습은 잘 훈련된 ‘Pre trained model’을 응용해 데이터를 새롭게 학습하는 방식이다. 이를 활용하면 적은 데이터로도 상대적으로 고품질의 음성합성기를 개발할 수 있다.

전이학습 과정

인공지능 음성합성기의 응용사례

적은 데이터로도 구현할 수 있는 AI 음성합성기의 등장으로 음성합성이 활용되는 산업 분야는 크게 증가했다. 사람과 같은 목소리로 대응할 수 있는 콜센터, 1인 미디어의 목소리 대용, 연예인 목소리를 활용한 콘텐츠 사업, 게임 등으로 빠르게 확장되고 있으며 돌아가신 고인의 목소리를 복원하거나 지역특화 콘텐츠에 담을 수 있는 사투리 음성합성음까지 구현할 수 있게 됐다.

또 인공지능 기반의 음성합성기는 그 성질이 매우 유연하다. 본래의 특성과 다른 새로운 지식을 가르쳐도 마치 어린아이가 지식을 빨아들이는 것처럼 새롭게 응용해낼 수 있다.

예를 들어 한국어만 할 수 있던 음성합성기에 영어를 학습시키면 한국어 화자가 영어를 하게 할 수 있게 되는 것이다. 즉, 국산 캐릭터나 한국 연예인의 목소리로 외국어를 표현할 수 있게 되며 해외 시장에 적합한 콘텐츠를 간단히 만들어낼 수 있게 된다. 

또한 감정의 표현이 용이하다. 차분하거나 슬픈 목소리, 격양된 목소리, 화난 목소리 등 일반적인 감정을 담은 목소리나 시를 읽는 차분한 목소리, 발랄한 스타일의 목소리 같은 상황에 따른 감성적 음성 표현도 가능하다. 심지어 감정이 실리지 않은 목소리에도 감정을 부여할 수 있으며, 특정인의 운율을 학습해 단순 말투부터 노래까지도 모두 따라하게 할 수 있다. 여기서 파생될 수 있는 콘텐츠는 대단히 무궁무진하다. 

다양하게 응용 가능한 AI 음성합성기

인공지능 음성합성의 과제

AI 음성합성기도 극복해야 할 과제는 있다. 특히 앞서 언급한 타코트론의 경우 크게 3가지 문제점이 지적된다. 첫째, 모든 과정이 예측 기반으로 이뤄지기 때문에 예측 성능에 따른 고질적인 문제들이 생긴다. 특정 음을 반복하거나 생략 혹은 잘못 발성하는 문제가 간혹 발생하는데, 정확한 정보 전달이 필요한 상용 서비스에서는 치명적일 수 있다.

둘째, 문장이 길수록 문장 생성이 오래 걸린다. 문장 단위로 음성을 만들어내는 방식은 입력 문장이 짧으면 금방 출력되지만, 문장이 길어지면 그만큼 출력까지의 시간이 오래 걸린다. 10초짜리 음원 생성에 7초가 걸린다면 사용자는 텍스트를 입력하고 듣기까지 7초를 기다려야 한다는 얘기다. 이는 챗봇이나 인공지능 스피커 등 실시간 서비스를 요구하는 서비스에는 적합하지 않다.

셋째, 음질 문제는 여전히 남아있다. 타코트론은 정말 사람과 같은 말투로 음성을 생성하지만 음질이 좋은 편은 아니다. 엔드 투 엔드(End to End) 음성합성이라고 하지만, 엄밀히 말하면 음성파형을 직접 생성하는 것이 아니라 음성의 스펙트로그램을 생성하고 이를 음성파형으로 변환하는 방식이다. 이때 변환 과정에서 일부 손실이 발생하고 음질 저하로 이어진다.

이를 극복하기 위해 많은 연구기관에서 Wavenet, Waveglow, Melgan 등의 ‘Neural vocoder’를 공개한 바 있다. 단순 연산이 아닌 신경망을 통해 스펙트로그램을 음성파형으로 변환하는 것으로 음성파형을 원음에 가깝게 출력할 수 있으나 연산에 GPU가 요구되는 등 제약 사항이 따른다.

AI 음성합성기가 산업 현장에 적용되려면 자연스러운 음성은 물론이고 합성음을 안정적으로 생성할 수 있어야 하며, 짧은 시간 안에 사용자에게 응답하면서도 고품질의 음질을 유지할 수 있어야 한다.

아직은 키보드와 마우스로 조작하고 모니터를 통해 정보를 받는 것에 더 익숙하지만 우리는 영화 ‘아이언맨’ 속 인공지능 비서 자비스와 같이 언제든 자연스럽게 대화할 수 있는 음성 인터페이스를 꿈꾸고 있다. 그리고 그 기본인 음성은 이미 AI를 통해 정말 사람처럼 말하고 있고, 단점은 놀랍도록 빠르게 개선되고 있다. 아마 곧 내가 원하는 목소리의 자비스를 실제로 만나볼 수 있지 않을까?

 

자료제공: 셀바스 AI
테크월드 - 월간 <EMBEDDED> 2020년 3월호 中

이 기사를 공유합니다
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지
이 기사와 관련된 기사