음성인식 기술 동향

최근 세계 최대의 검색 포털인 구글이 음성 웹 검색 기술을 개발할 것이라고 발표하면서 음성 인식 소프트웨어에 대한 관심도 커지고 있다.구글은 검색어를 입력하기가 불편한 휴대전화의 인터넷 검색 기능을 음성 인식으로 대체하기 위해 ‘검색 엔진용 음성 인터페이스에 관한 특허’를 출원한 것. 검색 엔진에 대한 음성 인터페이스 원천 기술을 보유하고 있는 구글은 최근 음성인식 기술업체인 ‘뉘앙스’로부터 연구 인력을 채용했다. 시장조사기관에 따르면 세계 휴대전화 사용자의 28%가 휴대전화로 인터넷 검색을 하고 있는 것으로 나타나 음성인식 산업에 미치는 영향에도 관심이 모아지고 있다.‘화자 독립형’ 기술 각광음성 인식 기술은 크게 음파 중심의 비교 형태인 ‘화자 종속형’과 테스트 베이스의 ‘화자 독립형’ 방식으로 나눈다. 화자 종속형은 필요한 말을 미리 몇 번씩 녹음해서 사용자의 목소리와 일치시키는 방식이고, 화자 독립형은 음성 내용을 녹음할 필요 없이 텍스트 자체를 인식하는 기술이다.과거 모 휴대전화 CF에서 탤런트 김혜수가 ‘우리집!’이라고 외치면 전화번호가 연결되던 방식은 일종의 화자 종속형에 포함된다. 이에 반해 화자 독립형 음성인식은 녹음 없이 글자로 적어주면 휴대전화에서 알아서 음성을 문자로 검색해 찾아주는 방식이다. 초기에는 휴대전화에 화자 종속형 음성인식 솔루션이 탑재됐지만 최신 휴대전화에는 화자 독립형 솔루션이 적용되면서 사용이 더욱 간편해졌다.삼성전자가 지난해 출시한 블루투스 음성인식폰이 말하는 사람의 목소리 타입에 상관없이 인식할 수 있는 화자 독립형 음성인식을 적용한 제품이다. 이 제품은 블루투스 헤드셋을 귀에 착용한 채 상대방의 이름을 부르면, 멀리 떨어져 있는 휴대전화 전화번호부를 찾아 발신을 할 수 있다. 특히, 블루투스 음성인식 기술을 이용하면 휴대전화에 손을 댈 필요가 없어 차량운전 중에도 안전하게 통화를 할 수 있다. 삼성전자는 최신 휴대전화에 모두 화자 독립형 음성인식 방식을 도입했다.전자통신연구원(ETRI) 디지털홈연구단 음성처리연구팀의 정호영 박사는 “초기에 사용되던 음성인식 휴대전화는 템플릿 기반으로 음성 신호를 받은 휴대전화가 타이밍 추출을 통해 데이터를 비교, 인식하는 아주 초기적인 단계의 음성인식 방식”이라며 “이제는 음성인식을 위한 기본단위(음소)를 모델링하는 HMM 방식을 많이 사용하고 있다”고 말했다.엔진 업체 HMM 기술 채용HMM(Hidden Markov Model)은 음성인식 엔진으로 들어오는 음소와 음성인식 엔진 내의 DB로 갖고 있는 음소를 결합해 단어와 문장을 만드는 방법으로 국내 대부분의 음성인식 엔진업체들이 사용하고 있다.하지만 현재까지 휴대전화 음성인식 기능은 핸즈프리 다이얼링을 가능하게 하는 폰 메모리에 몇 개의 음성 명령어를 제공하는 수준에 불과하다. 이에 핸즈프리, 음성 전환 텍스트 메시지 또는 길이 제한이 거의 없는 이메일, 음성 명령 웹브라우징, 음악 다운로드를 가능하게 하는 새로운 서비스가 음성인식 소프트웨어 업체들의 숙제이자 목표이다.사실 음성 인식 기술은 어제 오늘의 기술이 아니다. 이미 오래 전부터 발전돼 온 음성인식 기술은 디지털 시대에 빠르게 접목되고 있지만 우리가 공상과학 영화에서 익숙하게 봐 온 대화 수준의 기술은 시간이 좀 더 필요할 것으로 보인다. 소비자의 인식과 기대치에 훨씬 못 미치는 실제 기술수준 사이에는 커다란 간격이 존재한다는 의미이다. 말을 하면 타이핑 작업을 해주는 ‘키보드 없는 PC’가 이미 등장하기는 했지만, 장애인이나 일부 특수한 경우에만 사용되면서 시장을 만들지 못한 것도 이를 잘 말해준다. 이러한 상황에도 음성인식 기술은 휴대전화 인터페이스의 첨단기술로 각광받고 있으며, 핸들을 잡아야 하기 때문에 손을 사용하기가 불편한 자동차 시장이나 학습기 등의 임베디드 소프트웨어 시장에서 급성장하고 있다.자연어 인식기술 개발에 총력2010년까지 전 세계 자동차의 절반에 가까운 3,000만 대의 승용차가 음성인식 능력을 갖출 것이라는 전망이 나와 음성인식 기술 업체들의 미래를 밝게 해주고 있다. 운전자들이 음성 명령만으로 전화를 걸거나 내비게이션에 주소를 입력하는 차량이 늘고있다는 점은 이를 잘 반영하고 있다. 최근에는 기기에 음성을 기억시켜서 기기가 운전자의 명령을 분석하는 방식에서 벗어나 차내 전자장치를 작동하기 위해 대화하듯 말하는 방식이 개발되고 있다. 대화체의 언어를 인식하는 것이 바로 자연어 처리 기술이다. 예를 들어, 운전자가 운전 상태에서 희망하는 노래 검색을 명령했을 때, 음성인식 소프트웨어는 비슷한 단어를 제시하며 정확한 명령어를 요구하는 것이다. 단지 녹음된 명령어만 인식하는 단계에서 진일보한 기술로 운전자와 차량 음성인식 장치가 ‘대화’를 하는 것이다.보이스박스, 스캔소프트 등의 업체들이 이 같은 분야에 집중하고 있으며 MS의 경우, 자동차를 위한 운영체제에 음성 인식 기술을 탑재하고 있다. MS는 휴대전화와 디지털 음악 플레이어를 위한 음성기술을 제공하고 있다.홈네트워크 시스템에서도 음성인식 기술을 빼놓고 얘기할 수 없다. 버튼, 터치스크린, 이동형 패드, 리모컨 등을 이용해 기계적 접촉제어 시스템을 구축하고 있는 홈네트워크의 취약점은 노인층이나 아이들이 사용하기에 너무 복잡하다는 것. 이런 문제점을 해결해 줄 수 있는 대안의 하나로 떠오른 음성인식 기술은 임베디드 기술을 통해 소형화를 실현하고 있다. 예를 들어, 직접 음성으로 조명을 껐다 켰다한다거나 로봇에게 명령을 내릴 수 있는 일이 실제로 일어나고 있는 것이다.이 밖에도 음성인식 기술은 임베디드 분야에 다양하게 적용할 수 있다. 국내업체인 보이스웨어는 MS 윈도우 CE, 리눅스 등의 소용량 임베디드 솔루션으로 구현한 대화형 첨단 장남감과 로봇, PDA, 가전제품, 휴대용 통역기 등에 음성기술을 적용하고 있다.국내 음성 최적화기술 2% 부족에어컨과 TV, 세탁기, 냉장고, 전기밥솥 등의 가전제품에 활용하여 전원을 켜고 끄는 것은 물론 메뉴들을 음성으로 제어할 수 있다.전자통신연구원의 정호영 박사는 “전반적으로 국내 음성인식 기술 수준은 세계 기술 수준과 차이가 없지만 최종 마무리하는 단계에서 기능을 환경에 맞게 최적화하는 기술이 뒤처진다. 다시 말해, 기술은 좋은데 뭔가 2% 부족한 것이 문제라면 문제”라고 지적했다. ‘말’로 미래가 실현되는 시대가 우리 곁으로 성큼 다가오고 있다.
회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지