400문장으로 3가지 감정의 목소리를 합성, 네이버 'NES'
상태바
400문장으로 3가지 감정의 목소리를 합성, 네이버 'NES'
  • 이건한 기자
  • 승인 2019.11.14 11:18
  • 댓글 0
이 기사를 공유합니다

약 40분/400문장 녹음만으로 자연스러운 목소리 합성 가능
개인 콘텐츠 제작 활용에는 무료로 사용 가능

[테크월드=이건한 기자] 머신러닝에 기반한 '음성합성' 기술을 활용해 음성 콘텐츠 제작에 따른 비용과 시간을 절약하려는 기업들이 점점 늘어나는 추세다. 이에 최근 음성합성 기술을 개발하는 기업들의 핵심 경쟁 포인트도 '얼마나 더 적은 문장으로 음성합성에 성공할 수 있는지'와 '얼마나 더 편리하고 저렴한 가격에 서비스를 이용할 수 있는가'에 집중되고 있다.

네이버가 짧은 녹음으로 고품질의 합성음을 제작할 수 있는 클로바의 음성 합성 신기술 ‘NES(Natural End–to-end Speech Synthesis)’을 공개하고, 이를 기반으로 보이스 비즈니스 서비스를 제공한다고 밝혔다.

NES 음성 데모
NES 음성 데모

NES 음성합성은 약 40분, 400문장 정도의 음성 데이터로 실제 사람의 음성에 가까운 합성음을 제작할 수 있는 것이 특징이다. 특히 최근 트렌드에 따라 기본형 목소리 외에도 기쁨과 슬픔 같은 감정을 음성합성에 반영할 수 있도록 했다. 분야에 관계없이 유연하게 적용할 수 있으며, 현재 클로바 보이스 홈페이지에서 NES로 제작한 음성합성 데모를 들어보거나 사용자가 직접 100자 이하의 문장을 입력해 성능을 테스트해볼 수 있다. 또 개인 콘텐츠 제작에 한해서는 무료로 사용할 수 있다는 장점도 있다.

네이버 Clova Voice 김재민 책임리더는 “NES 기술을 통해 향후에는 누구나 쉽고 편리하게 나만의 ‘보이스 폰트’를 제작할 수 있을 것으로 기대한다”면서, “기본 감정 외에도 엄격한 뉴스 앵커 목소리, 부드러운 친구 목소리 등 다양한 감정과 스타일의 합성기를 확대해나갈 것”이라고 말했다.

네이버는 현재 클로바 스마트스피커, 네이버 뉴스, 네이버 지도, 파파고, 오디오클립 등 다양한 서비스에 클로바의 음성합성 기술을 활용하고 있으며, 연내에는 NES 기술을 활용한 신규 AI 서비스도 출시할 계획이다. 

이 밖에도 기업 이용자를 대상으로, ‘NES’ 기반의 보이스 비즈니스 서비스인 ‘클로바 프리미엄 보이스(CPV)’도 판매하고 있다. 기업 광고, 고객 응대, 오디오 콘텐츠 등 고품질의 합성음이 필요한 다양한 서비스에 활용할 수 있으며, 네이버 클라우드 플랫폼에서 유료 API 형태로 제공된다.


관련기사