적은 데이터, 정제되지 않은 데이터에서도 준수한 변환 성능 보여

[테크월드=이건한 기자] 네이버가 자체 기술 연구 성과를 바탕으로 개선된 음성인식 엔진 'NEST(Neural End-to-end Speech Transcriber)'를 공개했다. 

NEST의 핵심은 제한된 데이터만으로 복잡하고 다양한 장문의 음성 표현을 인식해 텍스트로 변환할 수 있는 능력이다. 네이버는 사전 학습된 데이터 없이도 예상되지 않은 표현에 대한 정확한 음성인식을 NEST의 장점으로 꼽는다.

클로바 스피치 데모 화면, 발음이 정확학 뉴스뿐 아니라 일반 방송용 오디오 클립 등 정제되지 않은 음성 데이터에서도 상당히 정확한 STT 성능을 보여준다. 

음향 정보와 언어 정보를 별도로 학습하는 기존의 모델링 방식을 통합 모델링 방식(End-to-End)으로 개선해, 학습에 필요한 데이터의 양과 시간은 기존의 1/10 수준으로 단축하면서도, 인식의 정확도는 오히려 높였다는 설명이다.

현재 네이버의 음성인식 기술은 사람 대신 AI가 전화로 코로나19의 능동감시자를 확인하는 ‘클로바 케어콜’ 서비스에 적용돼 있으며, 지난 1월에는 네이버 동영상 뉴스의 자동 자막 서비스에도 도입된 바 있다.

네이버는 NEST 기술을 적용한 자동 자막을 다양한 동영상과 오디오 서비스로 확대하고, 동영상 검색을 비롯한 에디터에도 해당 기술을 활용할 계획이다.

일반 사용자들은 클로바 스피치 홈페이지(https://clova.ai/speech)에서 NEST를 무료로 체험해볼 수 있다. 기업과 단체는 제휴 제안을 통해 사용할 수 있다. 하반기 일본어 출시를 시작으로, 영어와 중국어 등으로 제공 언어도 확대해 나갈 예정이다. 

네이버 한익상 리더는 “NEST는 동영상, 오디오 콘텐츠의 자막 제작이나 아카이빙, 고객센터의 통화 데이터 관리 등 다양한 분야에서 활용 가치가 높을 것으로 기대한다”고 밝혔다.

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지
이 기사와 관련된 기사