'음성합성'이란 무엇인가?

AI 음성합성 기술의 원리와 방향성

[테크월드=이건한 기자] 최근 인공지능(AI) 스피커를 거실에 설치하는 집들이 많아졌다. 이 스피커들은 익숙한 아나운서나 연예인, 성우 등의 목소리로 우리에게 말을 건네고, 때론 유용한 정보들을 들려주곤 한다.

뉴스나 날씨 안내는 기본이다. 아침엔 친근하게 내 이름을 부르며 잠을 깨운다. 아이가 있는 집에선 AI 스피커가 부모를 대신해 동화책을 읽어주거나 아이의 외국어 회화 상대가 되는 상황 역시 이젠 낯설지 않다.

그런데 인공지능이 없었던 과거라면 이런 서비스를 어떻게 구현해야 했을까? 목소리를 담당하는 연예인은 아마도 매일 아침 일찍 일어나 새로 들어온 뉴스를 녹음해야 했을 것이고, 고객의 이름을 불러줘야 할 때를 대비해 수천만 명의 이름도 미리 녹음해야 했을 것이다. 나아가 '똑똑한' 비서가 되기 위해 한국어 위키백과에 있는 47만 4619개의 문서까지 모두 직접 녹음했을지 모른다. 조금 과장하면 아예 365일 24시간 내내 잠도 안 자고 스피커 건너에서 우리의 질문을 기다리고 있었을지도 모른다. 물론 불가능한 일이다.

하지만 지금 그 연예인이 매일 밤 푹 자고 가족과 함께 저녁이 있는 삶을 보내면서도 AI 스피커의 주인공이 될 수 있었던 이유는 바로 텍스트를 사람의 음성으로 자연스럽게 읽어주는 '음성합성' 기술 덕분이다.

문자 정보를 음성정보로 바꿔주는 음성합성 기술

누군가에게는 음성합성이란 용어가 생소할 수 있겠지만 실은 우리가 눈치채지 못했을 뿐, 음성합성 기술은 이미 오래전부터 우리 주변에 함께하고 있었다. 지하철과 버스 정류장의 안내방송, 아파트 관리 사무소, ATM기에서 나오는 목소리, 은행에 전화를 걸면 흘러나오는 ARS 음성 등 익숙한 그 목소리들이 사실은 전부 음성합성 기술로 만들어 낸 가상의 목소리니까 말이다.

문자를 음성 정보로 바꿔주는 음성합성 기술

누군가는 음성합성이란 용어가 생소할 수도 있겠지만, 실은 우리가 눈치채지 못했을 뿐이지 음성합성 기술은 이미 오래전부터 우리와 함께하고 있었다. 지하철이나 버스 정류장의 안내방송, 아파트 관리 사무소, ATM기에서 나오는 목소리, 은행에 전화를 걸면 흘러나오는 ARS 음성 등 익숙한 모든 것이 음성합성 기술로 만들어 낸 목소리이니까 말이다.

음성합성 기술의 종류와 미래

음성합성 기술을 이해하려면 우선 인간이 음성을 만들어내는 원리와 언어학에 대한 약간의 이해가 필요하다. 인간은 말을 하기 위해 자신이 습득한 언어, 역사, 기술 등의 모든 지식을 총동원해 메시지를 만들고, 중추신경계를 통해 발성 근육을 움직이며 독자적인 음성을 만들어 낸다.

이때 음성을 만드는 신체 기관을 조음 기관이라고 한다. 뇌는 폐를 통해 전달받은 공기를 조음 기관의 일부인 성대와 성도를 통과시킨다. 이 과정에서 입술을 움직여 발음을 결정하고, 성대의 진동수를 조절해 음의 높낮이를 조정한다. 이 과정을 거치면 비로소 하나의 음성이 세상에 전달되는 것이다.

약 200년 전에 등장한 최초의 음성합성기는 이런 인간의 조음 기관을 직접 흉내 내려고 했던 시도로부터 출발했다. 그러나 컴퓨터 기술이 발달한 현대에서는 조음 기관을 직접 흉내 내는 대신, 음성의 음향적 특징을 컴퓨터로 모델링 하거나, 음성을 음소 단위로 잘게 쪼개 이어 붙이는 방법을 주로 선택하고 있다. 비록 조음 기관을 그대로 따라 하는 것은 아니지만, 기관이 음성을 만드는 원리는 여전히 현대 음성합성과 음성 신호처리 기술의 근간이다.

음성합성 기술에서 음성을 만들기 위한 기준이 되는 단위는 ‘음소(音素)’다. 음소는 언어학적 관점에서 의미를 지닌 소리의 최소 단위인데, 한국어는 총 24자의 자음과 모음으로 구성돼 있으며 음성합성기는 음소의 소리를 만들어내고 이를 조합해 하나의 단어와 문장을 만든다. 즉, 한국어의 경우 총 24개의 음소와 소리만 있다면 모든 한국어 음성을 만들어 낼 수 있다는 이야기다.

그러나 이렇게 만들어진 음성을 우리가 쉽게 알아듣긴 힘들다. 같은 음소라 하더라도 서로 다른 여러 소리를 가지기 때문이다. 예를 들면, ‘학교’ 라는 단어에서 ‘학’의 종성 ‘ㄱ’과 ‘교’의 초성 ‘ㄱ’은 같은 ‘ㄱ’ 임에도 소리가 다르다. 즉 같은 ‘ㄱ’ 음소지만 소리는 다를 수 있다. 그리고 음성합성은 실제 사람이 말하는 것처럼 문자를 소리로 만들어 내는 기술이므로, ‘ㄱ’ 이라는 음소를 여러 다른 ‘ㄱ’ 소리로 만들 수 있는 기술이 필요하다.

음성합성을 위한 4가지 기술

음성합성 기술은 크게 4가지로 분류할 수 있다. 조음 합성 (Articulatory synthesis), 포먼트 합성 (Formant synthesis), 연결 합성 (Concatenative synthesis), 그리고 통계기반 파라미터 합성 (Statistical parametric speech synthesis)이다. 또 최근에는 딥러닝 기반의 음성합성 기술이 각광을 받고 있다.

이들 중 가장 현재 보편적으로 사용되고 있는 기술은 연결 합성과 통계기반 파라미터 합성 기술이다. 연결 합성은 USS(Unit Selection Synthesis)라고도 부른다. 단어 또는 문장 단위로 녹음된 음성 데이터를 어떤 기준에 의해 음소 단위로 잘게 쪼개 음편(Unit) DB로 만들고, 반대로 음성을 합성할 때는 이 DB에서 전체 발화에 적합한 음편을 찾아 이어 붙이는 구조다.

연결 합성에서 중요한 기술은 음편 DB에 저장된 수많은 음편들 중에서 내가 만들고자 하는 음성을 가장 잘 표현할 수 있는 최적의 음편을 선택하는 기술과, 음편을 부드럽게 이어 붙이는 기술이다.

특히, 최적의 음편을 선택하는 과정은 단순해 보일지 몰라도 실상 매우 복잡하고 어려운 과정의 연속을 담고 있다. 여기에는 문장 내 형태소 정보를 추출하는 언어처리 과정과 그 결과를 기반으로 운율을 예측하고, 끊어 읽기(경계)를 예측하는 과정, 언어처리와 운율, 끊어읽기(경계) 예측 결과를 기반으로 최적의 음편(unit)을 선택하는 과정 등이 수반된다.

음편 DB로부터 적합한 음편을 찾아 이어 붙이는 음성합성 기술 (출처=Heiga Zen, Keiichi Tokuda, and Alan W. Black. Statistical parametric speech synthesis. Speech Communication, 51(11):1039 – 1064, 2009. ISSN 0167-6393. doi: DOI:10.1016/j. specom.2009.04.004)

다음으로 통계기반 파라미터 합성기술은 음성 신호처리 기술에 기반하고 있다. 음성은 조음기관을 거치며 어떤 특성을 갖게 되는데, 이 특성을 신호처리 기술을 활용해 음성 데이터로부터 추출해 모델링하는 방식이다. 이때 데이터로부터 추출된 음성 특징들을 흔히 파라미터라고 부른다.

통계기반 파라미터 합성은 특징 파라미터들을 추출해 통계 모델링하는 훈련과정과, 텍스트가 입력되면 통계 모델로부터 해당되는 파라미터를 생성하고 음성 신호 처리 과정을 통해 적절한 음성으로 재구성되는 합성 과정으로 구성된다.

통계기반 파라미터 합성: HMM based statistical parameter speech synthesis (출처=Heiga Zen, Keiichi Tokuda, and Alan W. Black. Statistical parametric speech synthesis. Speech Communication, 51(11):1039 – 1064, 2009. ISSN 0167-6393. doi: DOI:10.1016/j. specom.2009.04.004)

인공지능(딥러닝) 기반 음성합성은 뭐가 다를까?

최근 10여 년 사이 영상과 음성인식 분야는 딥러닝 기술을 활용해 비약적인 성능 향상을 이뤄냈다. 이런 경험은 딥러닝 기술이 많은 분야로 확산하는 계기가 됐는데, 음성합성 분야도 예외는 아니었다. 참고로 필자는 2013년도부터 시작된 딥러닝 기반의 음성 합성 기술이 현재까지 발전되어 온 과정을 기술 패러다임의 변화에 따라 1세대부터 3세대까지로 분류하고 있다.

딥러닝 기반 음성합성 기술의 발전과정

우선 1세대 기술은 딥러닝 기술을 음성합성 분야에 활용하려 했던 첫 번째 시도라는 점에서 의미가 있다. 통계 기반의 파라미터 합성 기술은 ‘은닉 마르코프 모델(HMM, Hidden Markov model)’로 음성 파라미터들의 통계 정보를 모델링했다. 이 1세대 기술은 은닉 마르코프 모델(HMM)을 딥러닝의 심층 신경망(DNN)으로 교체한 것이다.

이어 2세대 기술은 시계열 데이터의 예측에서 뛰어난 성능을 보이는 ‘LSTM-RNN(Long Short Term Memory Recurrent Neural Network)’을 활용했다. 음성 파라미터의 통계 모델을 예측하려던 1세대의 시도를 LSTM-RNN의 뛰어난 예측 성능을 활용해 한 단계 뛰어넘고, 음성 파라미터 자체를 직접 예측하려고 했던 시기다. 2세대 기술은 통계 모델을 사용하지 않음으로써 1세대 기술에 비해 발음이 더 명료해지고 음향 품질은 더욱 좋아지게 됐다.

3세대부터는 1, 2세대에서 활용됐던 음성의 특징 파라미터들을 대신해 음성 신호를 직접 예측하기 시작했다. 기존의 음성 파라미터를 활용하는 방식은 운율정보, 음향정보, 음의 길이 정보 등의 각 파라미터를 예측하기 위해 여러 단계의 모듈과 각 단계별 전문 지식과 최적화가 필요했는데, 3세대 기술은 입력부터 출력까지 하나의 모듈로 구성된 것이 특징이다.

즉, 각 단계별 전문 지식이 필요 없어지고 대신 입력 텍스트와 그에 대한 음성 데이터만 가지고도 모델을 학습할 수 있게 된 것이다. 이는 음성합성 기술에 대한 진입 장벽을 낮추는 역할을 했을 뿐 아니라, 음성 데이터를 가공하기 위해 필요했던 노력도 줄어들며 자체 비용 개발이 절감되는 효과를 얻을 수 있다는 점에서 의미가 있다.

3세대 기술의 시작은 구글이 2017년 3월에 발표한 ‘타코트론(Tacotron)’ 이다. 타코트론은 입력 텍스트와 그에 대한 음성 신호 예측 과정이 하나의 학습 모델로 이루어져 있는데, 학습 모델은 다시 크게 4가지 모듈로 구성된다. 입력 문자열에서 특징 정보를 생성하는 인코더(Encoder), 음성의 스펙트로그램을 예측하는 디코더(Decoder), 인코더와 디코더를 연결해주는 어텐션(Attention), 마지막으로 음성을 만들어 내는 음성합성부다.

그리고 이 3세대 기술은 입력부터 출력까지 하나의 학습 메커니즘으로 구성되는 End-to-End 시스템으로 입력 문장의 시퀀스를 통째로 학습하기 때문에 현존하는 음성합성 기술 중 가장 자연스러운 합성음을 출력할 수 있다.

연결 합성과 딥러닝 기반 합성의 장단점

다시 방식으로 돌아가, 연결합성 기술은 현재 산업 분야에서 가장 널리 활용되고 있는 기술이다. 녹음 원음으로부터 만들어진 음편을 이어 붙이는 기술로 음향 품질이 가장 우수하기 때문이다. 반면, 음편을 이어 붙이는 과정에서 운율이 불안정해진다는 한계가 있다. 이와 달리 통계기반 파라미터 합성은 운율이 안정적인 장점을 가지고 있어 주로 e-book 분야에서 책을 읽어주는 데 많이 활용되고 있는데, 음성으로 만들어내는 보코딩 과정에서 발생하는 잡음(buzzing)은 단점으로 지목된다.

하지만 딥러닝 기반의 음성합성 기술은 위 두 가지 기술의 장점을 모두 갖고 있으며, 동시에 두 기술의 단점을 모두 극복했다. 운율이 매우 자연스럽고 음향 품질 또한 우수하다. 그러나 딥러닝 음성합성이 각광 받는 이유는 앞선 기술들의 단점을 극복했기 때문만은 아니다. 학습을 기반으로 하므로 다양한 사람의 발화 스타일을 직접 학습함으로써 감정, 스타일 등의 표현이 가능해지고, 수 분~수 시간의 녹음 데이터만 가지고도 그 사람의 목소리를 가진 음성합성기를 만들어 낼 수 있다는 점에서 중요한 가치를 지니고 있다고 말할 수 있다.

음성합성 기술의 미래

인공지능은 인간을 닮고자 한다. 4차 산업혁명의 시대를 맞이하는 음성합성 기술의 발전 방향도 사람을 향하고 있다. 이미 사람처럼 자연스럽게 말하는 딥러닝 기반의 음성합성 기술은 한 걸음 더 나아가 말속에 섬세한 감정까지 표현하고 싶어한다. 또, 딥러닝 이전 음성합성기 목소리의 주인공이 잘 훈련된 프로페셔널 성우의 몫이었다면, 인공지능 기술을 품은 음성합성기는 좋아하는 스타와 친구, 심지어 엄마의 목소리까지로 그 영역을 넓혀 가는 중이다.

커스텀보이스 시장의 등장

딥러닝 기술 중 전이학습(transfer learning)이란 기술을 활용하면, 소량의 녹음 데이터로 특정인의 목소리를 가진 음성합성기를 만들어 낼 수 있다. 기존에는 음성합성기를 제작하기 위해 전문 성우가 약 30시간 이상의 녹음을 하고, 수개월의 개발 기간을 투자해야 하는 힘겨운 과정이 필요로 했으나, 이젠 딥러닝을 통해 수 분의 녹음 데이터와 단 몇 분의 학습만으로도 음성합성기 제작이 가능해졌다. 물론, 고퀄리티의 성능을 내려면 여전히 녹음 데이터가 많은 편이 좋겠지만, 기존 방법과 비교할 수 없이 적은 노력만으로 목표 달성이 가능해졌다는 사실만은 분명하다.

이처럼 딥러닝 기반의 음성합성 기술은 전문 성우가 아닌 원하는 누군가의 목소리로 짧은 시간 안에 음성합성기를 만들 수 있다는 장점을 내세워 내가 원하는 목소리의 음성합성기를 만들 수 있게 된 ‘커스텀보이스’ 시장을 만들어냈다.

처음에 인공지능 스피커를 예를 들어 이야기했던 대로 유명 연예인의 목소리로 만들어진 음성합성기가 책을 읽어주거나, 사내 직원의 목소리로 사내 안내 방송을 하기도 하며, 고인의 목소리를 재현하는 것이 이젠 모두 가능해진 일이다.

또한 최근 기업들은 저마다 자신들만의 개성 있는 브랜드 보이스를 확보하기 위한 노력을 기울이고 있다. 기업의 목소리를 고객들에게 직접 음성으로 들려준다는 점에서 기업을 대표하는 브랜드 보이스가 고객에게 주는 감성은 꽤나 매력적인 마케팅 포인트이다.

개인화 서비스의 출현

이제 향후 몇 년간은 ‘개인화 서비스’에 많은 기대가 몰릴 것으로 보인다. 최근 AI 플랫폼에 개인화 서비스를 적용하려는 시도도 속속 일어나고 있다. 엄마의 목소리로 책을 읽어주거나, 사용자 개인의 목소리를 구별해 맞춤형 서비스를 제공하고, 유명 유튜버의 목소리가 아이들과 대화를 하기도 한다. 음성 영역에서도 개인화 서비스의 출현은 자연스럽게 개인화 합성기의 수요로 이어질 것이다.

그렇게 되면 시간이 더 지나 AI 플랫폼에 탑재된 목소리뿐 아니라 서비스를 대상자인 사용자가 직접 만든 자신의 목소리로 서비스를 받을 수 있는 날도 오게 될 것이다. 최근에는 적은 양의 데이터로 보다 더 짧은 시간에 학습을 완료하기 위한 기술 연구가 이루어지고 있는 것은 이것과 무관하지 않다.

감성과 개성을 표현하는 음성합성기

근래의 음성합성 기술 연구는 감성과 개성을 표현하는 방향으로 발전하고 있다. 인공지능 기술은 사람을 닮고자 하기 때문이다. 음성합성기가 고객과 대화를 나눌 때, 대화의 감성에 적합한 뉘앙스로 대화를 이어나간다면 마치 인공지능 스피커의 건너편에 진짜 사람이 있는 것과 같은 착각이 들 것이다. 필요한 답을 주지 못할 때는 안타까운 목소리로, 좋은 소식은 밝고 명랑한 목소리로, 뉴스는 차분하고 진지하게 음성합성기가 응답하는 상황을 상상해보라. 그것은 생각보다 매력적인 일이다.

영화 ‘그녀(Her)’에서처럼 사람이 인공지능과 사랑을 나눌 날도 머지않았다. 특히, 음성합성 기술은 인공지능과 사람 사이를 연결해주는 인공지능의 핵심 인터페이스로써 인공지능의 감성을 표현하기 위한 매우 중요한 핵심 기술이 될 것으로 전망된다.

글 | 셀바스 AI 음성합성팀 팀장 박태훈 수석연구원

이 글은 테크월드가 발행하는 월간 <EMBEDDED> 12월 호에 게재된 기사입니다.

회원가입 후 이용바랍니다.