동작 및 음성 인식 기술 동향

사용자 경험 극대화 위해서 자연스러움, 직관성, 즉시성 중요

스마트 디바이스에 대한 사용자 경험을 극대화하기 위해서는 자연스러움, 직관성, 즉시성이 중요하다. 필요할 때 빠르고 자연스럽게 사용할 수 있어야 하고, 복잡한 제어도 쉬워야 한다. 동작인식과 음성인식은 독립적으로 사용하기 보다는 서로 보완적으로 함께 사용된다. 동작인식으로 사용자의 의도나 상황을 파악하여 디바이스의 기본적인 제어를 하고, 구체적인 사용자 의도는 음성인식을 통해 디바이스 제어나 정보 검색을 하게 되는 것이다. 스마트폰과 비교를 한다면 터치의 경험은 동작인식이 대체하고, 키패드의 글자 입력은 음성인식이 대체하는 형태라 할 수 있다.

 

글: 윤훈주 / 유비유넷 대표

firehj@hanmail.net

 


지난 몇 년 동안 휴대폰 시장에 불어 닥쳤던 스마트화 바람은 이제 스마트 가전, 스마트 자동차 등으로 확대되었고, 웨어러블 및 IoT 디바이스라는 신규 디바이스 시장까지 이끌어내고 있다. 스마트 디바이스는 기기가 원래 가졌던 기본 기능 이외에 더 다양한 기능을 가지게 됨을 의미한다. 다양한 기능을 사용자가 쉽고 편리하게 사용하기 위해서는 그에 적합한 새로운 인터페이스의 도입이 필요해졌고, 터치기술이 아닌 동작인식과 음성인식 기술이 해결책으로 주목을 받고 있다.

웨어러블 디바이스는 몸에 착용하는 것에 최적화되어 있어서 스마트폰과 달리 넓은 터치스크린을 가지고 있지 않다. 웨어러블의 대표적인 디바이스로 꼽히는 스마트 안경과 스마트 워치에서는 음성인식이 중요한 인터페이스로 도입되었고, 사용자의 의도를 자연스럽게 파악하기 위해 동작인식 기술도 적용되어가고 있다. 특히 최근에 많은 주요 기업들이 스마트 워치 제품을 출시하고 있다.

스마트 워치에 적용된 동작인식의 가장 기본적인 응용 분야는 배터리 소모를 최소화기 위한 화면 절전 기능의 전환이다. 평소에는 화면을 끄거나 어둡게 유지를 하다가 사용자가 손을 들었을 때 화면이 밝게 켜지게 하는 것이다. 스마트 안경 제품의 대표격인 구글 글래스는 별도의 손동작 없이도 고개를 들면 화면이 켜지게 되고, 바로 이어서 음성인식을 통해 필요한 기능을 제어하게 된다.

이렇듯 스마트 디바이스에 대한 사용자 경험을 극대화하기 위해서는 자연스러움, 직관성, 즉시성이 중요하다. 필요할 때 빠르고 자연스럽게 사용할 수 있어야 하고, 복잡한 제어도 쉬워야 한다. 동작인식과 음성인식은 독립적으로 사용하기 보다는 서로 보완적으로 함께 사용된다.


동작인식으로 사용자의 의도나 상황을 파악하여 디바이스의 기본적인 제어를 하고, 구체적인 사용자 의도는 음성인식을 통해 디바이스 제어나 정보 검색을 하게 되는 것이다. 스마트폰과 비교를 한다면 터치의 경험은 동작인식이 대체하고, 키패드의 글자 입력은 음성인식이 대체하는 형태라 할 수 있다.

 

동작인식이란?

동작인식은 사람의 몸통, 손, 얼굴 등 신체 전체 또는 일부의 움직임을 인식하여 컴퓨터를 제어하는 기술이다. 동작인식 기술은 가속도, 빛, 음파, 전파와 같은 여러 가지 물리적 요소를 활용하며, 그중에서 가속도 센서가 휴대폰을 중심으로 먼저 대중화가 되었다.

가속도 센서를 이용한 동작인식은 디바이스를 손에 들고 움직여야 하기 때문에 스마트폰처럼 항상 손에 들고 있는 디바이스에 적합하게 사용되는 기술이다. 게임분야에서는 컨트롤러를 손에 들고 몸을 움직이며 게임을 함으로써 기존의 게임패드와는 다른 신나는 경험이 가능해졌다. 최근 이슈가 되고 있는 웨어러블 디바이스에서는 착용하고 있는 몸의 움직임을 감지하기 위해 가속도 센서가 활용된다.

 

▲ ▲스마트폰에서의 동작인식 출처: ST마이크로일렉트로닉스

 

지난 2002년에 개봉되었던 영화 '마이너리 리포트'에는 주인공인 톰 크루즈가 손에 빛이 나오는 장갑을 끼고 투명한 디스플레이 앞에서 손 제스처를 통해 영상을 제어하는 모습이 등장한다. 마우스나 터치스크린을 사용하지 않고 허공에서 손동작만으로 컴퓨터를 사용할 수 있다는 점이 당시만에도 정말 혁신적인 기술이었다. 하지만 이러한 영화 속 모습이 10여년이 넘은 지금에는 더 이상 상상 속 영화가 아닌 현실이 되었다.

 

▲ ▲영화 마이너리티 리포트의 동작인식

 

2010년 11월에는 MS(마이크로소프트)가 x-box게임기에 연결하여 사용할 수 있는 ‘키넥트’라는 동작인식 센서 제품을 출시함으로써 사람들의 동작인식 경험에 대한 새로운 전환 계기를 만들었다. 키넥트는 장갑을 사용하지 않고 그냥 맨 손으로 사용하기 때문에 영화 마이너리 리포트보다 훨씬 더 편리하고 향상된 사용자 경험을 제공하였다.

 

▲ ▲동작인식 제스처

 

9축 센서 기반의 동작인식


스마트폰의 동작인식

스마트폰에는 기본적으로 가속도 센서, 자이로 센서, 지자기 센서가 탑재되고 있으며, 각 센서는 x, y, z의 3축 방향의 정보를 가지고 있다. 이 3개의 센서를 하나의 칩으로 통합하여 9축 센서라고 부른다.

가속도 센서는 속도의 변화와 중력을 감지할 수 있으며, 스마트폰의 가로 및 세로 방향에 따라 화면을 자동으로 변환시킬 수 있다. 자이로 센서는 가속도 센서보다 정밀한 회전을 감지할 수 있으며, 자동차 핸들 조정과 같은 미세한 회전 감지를 할 수 있어 좀 더 실감나는 게임이 가능해진다. 지자기 센서는 디지털 나침반 기능을 하게 되며 동서남북의 방향정보를 센싱할 수 있다. 지도에서 길을 찾을 때 지자기 센서가 방향을 감지하게 된다.

 

게임 컨트롤러의 동작인식

게임기 분야에서는 일본의 닌텐도사가 2006년 11월에 동작인식 기능을 적용한 닌텐도 Wii를 출시하였다. 닌텐도 Wii는 리모컨처럼 생겼으며 손에 들고 사용하는 기기이다. 내부에 가속도 센서가 탑재되어 있어 사용자의 손 움직임을 인식할 수 있다. Wii 컨트롤러를 손에 들고 탁구, 테니스, 볼링 등의 손을 휘두르는 동작을 취하면 게임기가 사용자의 움직임을 인식하여 해당 게임의 캐릭터와 연동하게 된다.


Wii는 기존의 게임패드가 제공하던 손가락 중심의 정적인 사용자 게임 경험을 벗어나, 온몸을 사용하는 동적인 사용자 경험을 제공함으로써 많은 인기를 얻게 되었다. 이후에 소니도 이와 유사한 플레이스테이션 무브라는 동작인식 게임기를 2010년 9월에 출시하였다.

 

▲ ▲닌텐도 Wii

 

▲ ▲닌텐도 Wii를 사용한 게임

 

스마트 TV 리모컨의 동작인식

TV는 이제 단순히 드라마와 같은 방송 콘텐츠를 보는 것을 넘어서 다양한 애플리케이션, 게임 및 인터넷 검색을 할 수 있는 스마트 TV로 진화해가고 있다. 다양한 기능이 추가된 스마트 TV를 기존의 채널변경, 볼륨 조절 기능을 가진 리모컨만으로는 제어하기에는 한계가 있다.


TV의 복잡한 기능을 제어할 수 있도록 PC의 마우스 포인터와 같이 제어할 수 있는 기능이 필요하게 되었다. 리모컨 컨트롤러에 가속도 센서를 탑재하여 사용자가 리모컨을 움직이면 TV화면에 포인터가 나타나고 이를 움직여서 원하는 메뉴를 선택할 수도 있고, 동작 인식 게임도 할 수 있다.

 

▲ ▲리모컨에 탑재된 동작인식 기능

 

 

웨어러블 디바이스의 동작인식

웨어러블 디바이스는 착용 부위에 따라 안경, 헤어밴드, 손목밴드, 손목시계, 신발, 뱃지, 모자, 이어셋, 허리벨트, 옷 등의 다양한 제품들이 있다. 이중에서 스마트 안경, 스마트 밴드, 스마트 워치가 시장의 관심을 많이 받고 있으며 특히 스마트 워치를 애플, LG, 삼성, 모토로라 등의 주요 기업들이 제품을 출시했거나 출시할 예정이다.

스마트 워치는 스마트폰과 함께 사용하게 되며, 주머니나 가방에서 스마트폰을 꺼내지 않아도 스마트폰의 문자 메시지, 전화, 스케줄 등을 편리하게 확인하는 용도로 많이 사용된다. 동작 센서를 활용하여 평소에는 디스플레이 전력 소모 절약을 위해 절전 모드로 유지되다가 손을 들었을 때 자동으로 화면을 밝게 해준다.


건강관리 분야에서는 하루 동안의 걸음걸이 활동량을 자연스럽게 측정하여 소모 칼로리를 계산해주며 권투처럼 손의 움직임이 중요한 운동에서는 손동작 횟수와 속도를 측정해줄 수 있다. 특정 자세를 계속 유지해야 될 때는 해당 자세의 변화를 측정하여 자세를 코칭해주는 용도로도 활용할 수 있다.

 

▲ ▲손을 들면 화면이 켜지는 스마트워치

 

▲ ▲운동 횟수를 측정하는 동작인식

 

 

건강관리용 웨어러블 디바이스는 손목 밴드나 신발에 센서를 탑재하는 제품도 있다. 손목밴드는 건강관리 가능에 특화되어 있으며 스마트 워치에 비해 가볍고 배터리 사용이 오래가서 일상생활에서 사용자의 활동량을 좀 더 자연스럽게 측정이 이루어지며, 밤에 잠잘 때는 수면 측정도 가능하다.


Fitbit, Jawbone, Nike 등의 회사들이 관련 제품을 출시하고 있다. 신발에 착용하는 센서는 나이키의 나이키 플러스, 아디다스의 마이코치처럼 스포츠 전문업체들이 제품을 출시하고 있으며 운동 선수들의 운동량을 전문적으로 관리하기 위해 활용하기도 한다.

스마트업 업체를 중심으로 스마트 반지가 개발되고 있으며 손가락에 반지를 착용하여 손가락 제스처를 인식함으로써 정보 입력 및 주변기기를 제어할 수 있다. logbar사의 제품은 허공에 손가락으로 글씨나 아이콘 형태의 간단한 그림을 그리면 이를 인식할 수 있다. Fin이라는 제품은 손가락의 구부림을 인식하여 구부리는 정도에 따라 필요한 기능을 수행하는 단축키처럼 사용한다. 예를 들어 운동 중에 손가락을 구부려 음악을 플레이하거나 다음 곡으로 넘기는 등의 제어가 가능하다.

 

▲ alt="0010(▲Fin 스마트 반지)"

 

▲ alt="0011(▲logbar 스마트 반지)"

 

팔뚝에 착용하는 밴드형 제품으로는 Thalmic labs의 ‘myo’가 있다. Myo에는 9축 센서 뿐만 아니라 근육의 변화를 감지하는 EMG 센서가 탑재되어 있어 사용자의 손 제스처를 감지하게 된다. 손가락이나 팔을 움직일 때 근육의 변화가 이루어지며 이러한 근육의 변화를 전기적 신호로 감지하여 손 제스처를 인식하는 방식이다.

 

▲ alt="0012(▲근육의 변화를 감지하여 제스처 인식을 하는 Myo)"
o

 

스마트 안경에서는 사용자의 고개 움직임을 감지하게 된다. 고개를 들거나 끄덕이는 동작을 인식하여 디바이스의 on/off를 제어하거나 고개를 좌우로 돌리는 방향에 따라 보여주는 정보를 바꾸어준다. 특히 가상현실용 HMD 디바이스에서는 사용자의 고개 방향에 따라 콘텐츠도 실시간으로 바꾸어 보여주는 기능이 중요한 기술이다. 스마트 안경의 대표적인 제품으로는 구글 글래스가 있고, 가상현실 HMD는 페이스북이 인수한 oculus가 있다.

 

▲ alt="0013(▲Occlus rift 가상현실 HMD)"

 

▲ alt="0014(▲고개를 들면 화면이 켜지는 구글 글래스)"

 

 

카메라 영상 기반의 동작인식


배경과 대상 물체의 분리

영상인식에 있어서 기본적인 처리 기술은 영상내에서 원하는 부분과 그렇지 않은 영역을 분리하는 것이다. 색상이나 패턴과 같은 정보를 이용하여 대상 물체를 배경과 분리해 낼 수 있지만 배경과 대상 물체를 분리해낸다는 게 조명 환경이나 배경과 물체의 유사성 등의 여러 조건으로 인해 안정적인 분리가 쉽지는 않다.


경우에 따라서는 물체는 움직이고 배경은 움직이지 않는다는 전제조건을 기반으로 적용할 수 있으나 영상을 촬영하는 카메라 자체가 움직이는 경우에는 영상내에서 배경과 물체가 모두 움직이는 것처럼 보여지기 때문에 항상 적용하기에는 어려움이 있고, 패턴이 없이 배경과 동일한 색상을 가진 물체도 역시 배경으로부터 분리하기가 쉽지 않다.

이러한 어려움을 극복하기 위해 등장한 기술이 바로 3D depth 거리 정보를 활용하는 것이다. 3D 카메라를 이용하여 배경과 대상 물체간의 거리 정보를 획득함으로 배경과 물체를 분리하는 것이다. MS의 키넥트와 같은 동작인식 센서는 이러한 거리 정보를 기반으로 배경과 대상 물체를 분리하고 있다. 최근에는 인텔에서도 3D depth를 측정할 수 있는 Real sense라는 제품을 발표하였다. 1080p급의 칼라 카메라와 3D depth카메라, 적외선 프로젝터가 탑재되었다.

 

▲ alt="0015(▲인텔의 realsense 센서)"

 

Depth를 측정하는 기술은 크게 구조광 패턴(structured light pattern), TOF(time of flight), 스테레오스코프 비전(stereoscopic vision)의 3가지 방식이 있다.

 

▲ alt="0016(▲3D depth 측정 방식의 종류 출처:http://www.osa-opn.org/)"

 

 

Structured light 방식

구조광 방식은 광 패턴을 물체 표면에 비추어서 물체에 맺힌 광 패턴의 위치를 분석하여 거리를 측정하는 방식이다. 광 패턴은 일반적으로 직선형 무늬나 점 패턴을 투사하게 되며 물체의 굴곡에 따라 무늬가 맺히는 지점이 달라진다. 직선형 무늬의 경우에는 물체의 굴곡에 따라 선이 굽어져 보이게 된다.

빛을 발생시키는 소자는 레이저나 적외선 LED를 사용하며, 동작인식 센서는 이러한 빔 패턴을 보내는 프로젝터와 이를 측정하는 흑백 카메라로 구성이 된다. 물체 표면에 맺힌 패턴의 위치를 알고리즘적으로 분석하여 depth를 계산해낸다.

 

▲ alt="0017(▲키넥트 센서)"

 

▲ alt="0018(▲사용자 몸에 맺힌 키넥트 센서의 빔 패턴)"

 

MS의 키넥트 점 형태의 패턴을 비추고 물체 표면에 맺힌 패턴의 위치에 따라 거리값을 계산해낸다. 이외에도 MS 출신 개발자가 구글로 이직하여 개발한 구글 탱고 스마트폰과 태블릿이 있다. 키넥트는 센서를 실내공간에 고정하여 사용하는 반면에 탱고는 휴대용으로 사용할 수 있어서 키넥트와는 다른 사용성을 가지고 있다. 예를 들어 사용자가 폰을 들고 실내공간을 3D스캔하여 실내공간 지도를 만들거나 인테리어 가구를 배치해보는 용도로 활용할 수 있다.

 

▲ alt="0019(▲구글 탱고 스마트폰 )"

 

▲ alt="0020(▲구글 탱고 스마트폰의 3D 스캔 )"

 

ToF 방식

TOF(Time of flight) 방식은 빛이 물체에 반사되어 돌아오는 시간을 측정하여 거리를 산출한다. 빛은 1초에 약 30만Km를 이동하며, 빛이 돌아오는 아주 짧은 시간을 센서로 측정하여 거리를 계산한다. TOF 시스템의 적외선 LED가 적외선 펄스를 발사하고, 물체에 반사되어 오는 빛의 도달시간을 적외선 카메라 센서가 측정한다. 1초에 수십 번의 빛을 발사하고 수신하는 것을 반복함으로써 거리 정보를 동영상 형태로 촬영하게 되는데, 기본적인 동작 개념은 레이저를 이용한 거리 측정기와 같다.


레이저 거리 측정기는 레이저 신호가 물체에 반사되어 돌아오는 시간을 측정하여 거리를 계산하게 된다. TOF 동작 센서는 레이저 거리 측정기의 1차원 형태의 거리 정보가 아닌 2차원 형태로서 이미지의 각 픽셀마다 거리 정보를 획득하게 된다. 거리에 따라 각 픽셀의 밝기가 달라지므로 영상만으로도 물체와의 거리를 파악할 수 있다.

MS는 ToF 방식을 적용한 새로운 키넥트 2 센서를 2013년에 출시하였다. 키넥트 2는 xbox one과 함께 판매를 하였으나 2014년 하반기부터 센서만을 독립적으로 판매를 하며, 개발 SDK도 공개하고 있다. 점 패턴 방식을 사용하던 키넥트 1에 비해 픽셀단위의 거리측정이 가능하여 정교한 동작인식이 가능하다.


몸 동작의 회전 각도를 측정할 수 있고 얼굴에 분포되어 있는 혈관의 혈액 흐름에 따라 반사되는 적외선의 미묘한 밝기 변화로 심장박동 측정도 가능하다. 또한 웃고 있는지 찡그리는지 등의 표정인식도 가능하다.

 

▲ alt="0021(▲키넥트2 센서)"

 

▲ alt="0022(▲키넥트2의 동작인식 화면)"

 

 

스테레오 방식

일반적으로 스테레오 카메라는 물체를 입체감있게 촬영하는 장비이다. 2대의 카메라로 물체를 동시에 촬영하여 3D 디스플레이에 영상을 표시함으로써 사용자들에게 입체감을 느낄 수 있게 해준다. 사용자에게는 왼쪽 눈과 오른쪽 눈에 입사되는 영상에 차이가 나며 이러한 차이에 의해 사용자는 입체감을 느끼게 된다.

스테레오 방식의 depth 측정은 2대의 카메라가 바라보는 영상의 차이 정보를 이용하여 삼각측량의 원리에 기반하여 거리를 계산해 낸다. 카메라가 정면을 바라보도록 평행하게 배치되어 있을 경우에 물체와의 거리가 가까우면 두 대의 카메라로 촬영한 영상간의 차이가 크고, 거리가 멀면 영상 차이가 작게 된다. 실시간으로 2개의 영상을 동시에 처리해야 되어 프로세서의 빠른 처리 능력 및 알고리즘적 개선이 필요하다.

2대의 카메라를 사용하는 제품으로는 립모션 제품이 있다. 적외선 LED를 3개를 배치하고 손에 반사되어 오는 영상을 활용하여 동작인식을 처리한다. 책상위에 올려놓은 상태에서 제품 윗부분으로 움직이는 손 제스처를 인식하는 립모션은 개발자 SDK를 제공하여 개발자들이 여러 응용 애플리케이션을 개발할 수 있도록 지원하고 있다. 립모션 센서를 소형 모듈화하여 HP의 키보드와 노트북에도 탑재하였다.

 

▲ alt="0023(▲립모션)"

 

▲ alt="0024(▲노트북에 탑재된 립모션)"

 

▲ alt="0025(▲키보드에 탑재된 립모션)"

 

또 다른 제품으로는 아마존에서 발표한 파이어 폰이 있다. 파이어폰에는 4개의 전면 카메라가 배치가 되어 있고, 이 중에 가로 또는 세로로 사용이 될 때 2개의 카메라를 이용하여 사용자의 눈 위치를 감지하게 된다. 이렇게 측정한 사용자의 눈 위치에 따라 시선 각도에 맞는 3D 그래픽 데이터를 실시간으로 처리하여 보여줌으로써 게임이나 쇼핑몰에서 제품 이미지를 자연스럽고 실감있게 감상하도록 하는 용도로 활용될 수 있다.

 

▲ alt="0026(▲아마존 파이이폰)"

▲ alt="0027(▲파이어폰의 eye tracking 원리)"

 

동작 인식 알고리즘

동작인식의 신체인식 기술은 Body tracking, Hand tracking, Face/Eye tracking으로 나눌 수 있다.

Body tracking은 신체의 관절을 기반으로 사람의 동작을 표준화하며 MS의 Kinect, 애플이 인수한 Prime Sense사의 OpenNI, SoftKinetic사의 iisu3.5, 인텔이 인수한 omek사의 beckon 등이 있다. Body tracking은 배경과 사람을 거리정보로 분리하여 분석을 한다.

 

▲ alt="0028(▲Body tracking)"

 

MS의 키넥트1은 6명의 사용자를 인식하고, 2명의 사용자의 움직임을 동시에 트래킹할 수 있다. 트래킹을 하기 위해서는 사용자가 잠시 동안 가만히 서있어야 하며 , 사람 신체를 20개의 관절로 분석한다. 키넥트 2에서는 총 25개 관절로 분석을 하며 동시에 6명까지 추적이 가능하다.

 

▲ alt="0029(▲키넥트 1의 body tracking)"

 

▲ alt="0030(▲키넥트 1은 상체 10개, 하체 10개의 관절로 동작 분석)"

 

상반신 트래킹은 의자에 앉아서 사용을 하기 때문에 의자 등받이와 사람 신체와의 거리차가 얼마 안되는 경우가 많다. 따라서 트래킹을 시작하기 위해서는 약간 다른 알고리즘이 적용이 되며, 손이나 몸을 움직여서 센서가 사용자의 움직임을 감지할 수 있도록 해주어야 한다. 키넥트1의 상반신 트래킹은 총 10개의 관절로 분석한다.

Hand Tracking은 손가락 관절까지 세부적으로 감지함으로써 높은 정밀도의 동작인식 시스템을 구현할 수 있다. 3D 모델링 소프트웨어 제어나 수화 통역 등의 서비스로 활용될 수 있다. 인텔이 인수한 omek사의 grasp는 손을 22개의 관절로 구분하며, 립모션의 hand tracking도 손가락의 각 관절을 실시간 모델링하여 인식한다.

 

▲ alt="0032(▲립 모션의 Hand tracking)"

 

Face Tracking은 얼굴의 움직임이나 표정을 추적해 가상 아바타와 연동시키거나 기기를 제어할 수 있도록 하고, eye tracking은 매장에서의 소비자 관심사항 조사나 스마트폰 화면을 바라보는 사용자의 시선대로 콘텐츠를 바라보는 각도를 움직이는 형태로 활용될 수 있다.

 

▲ alt="0033(▲MS의 아바타 키넥트)"

 

동작인식 활용분야

게임용 동작인식

몸에 기기를 들거나 착용하지 않고서 몸을 자유롭게 움직임으로써 진짜 경기를 하듯이 게임을 즐길 수 있다. 발차기, 스윙, 자세 구부림 등의 다양한 제스처를 통해 게임에 대한 몰입감을 높일 수 있다. 권투, 배구, 탁구, 육상, 댄스 등의 다양한 스포츠 게임이 있다.

 

▲ alt="0034(▲격투기 동작인식 게임)"

 

▲ alt="0035(▲동작인식 댄스)"

 

스마트 TV의 동작인식

스마트 TV에 동작인식 카메라를 설치하여 별도의 리모컨이 없어도 사용자의 손동작이나 몸동작을 인식할 수 있다. TV의 채널이나 볼륨을 조절할 때 손동작을 통해 제어할 수 있으며, 게임할 때도 사용된다.

 

▲ alt="0036(▲스마트 TV의 동작인식)"

 

 

자동차 분야

손동작을 통해 차량의 선루프를 열거나 닫는 제어를 할 수 있다. 운전 중에 내비게이션 화면을 확대하거나 이동을 시킬 때에도 상체를 구부려 터치를 하지 않고 운전자세로 그대로 손 제스처만으로 제어를 함으로써 안전 운전을 할 수 있다.

 

▲ alt="0037(▲자동차에서의 동작인식)"

 

스마트 안경

스마트 안경은 입력할 수 있는 인터페이스가 제한적이어서 음성인식, 터치패드가 사용이 되기는 하지만 터치스크린이나 마우스처럼 사용자가 특정 지점을 바로 선택하는 기능은 적용되기 어려웠다. 안경에 3D 카메라를 탑재하여 사용자의 손동작을 인식함으로써 가상 마우스를 적용할 수 있다.

 

▲ alt="0038(▲손동작을 인식할 수 있는 스마트 안경)"

 

기타 다양한 분야에서의 적용

테마파크나 체험관에서도 동작인식기술을 적용하여 높은 몰입감을 체험할 수 있다. 헬스클럽에서는 헬스 트레이너가 없이도 나의 동작에 대해 자세 코칭을 해주고, 골프연습장에서는 골프 자세를 교정해주고, 사람들과 만나 대화를 할 때 필요한 손 제스처 스킬에 대한 코칭을 해줄 수 있다.

공연장에서는 가상 바이올린 및 드럼 등의 악기를 연주하는 공연을 펼칠 수 있고, 컨퍼런스 프리젠테이션 발표 시에 자연스런 제스처로 화면 전환을 할 수 있다. 병원에서 재활 훈련을 할 때 몸 동작에 따라 적절한 피드백을 해주어 재미를 제공하고, 수술실에서는 수술 진행중에 의사가 환자 정보를 살펴보기 위해 손 제스처만으로 정보 화면을 쉽게 전환할 수 있다.

학교에서 과학 시뮬레이션 제어를 쉽게 하고, 회사에서는 3D 캐드 소프트웨어를 다룰 때 손동작으로 화면을 회전시키고 확대시킬 수 있다. 위험한 현장에 투입된 원격지의 로봇의 움직임을 제어하고, 말을 못하는 장애인의 수화 동작인 인식할 수 있는 등의 다양한 분야에 활용될 수 있다.

 

▲ alt="0039(▲3D 캐드 소프트웨어의 제어 )"

 

▲ alt="0040(▲장애인의 수화 동작 인식)"

 

▲ alt="0041(▲체험관에서의 전시물 체험)"

 

▲ alt="0042(▲헬스 트레이닝)"

 

▲ alt="0043(▲홈에서 요리 중에 TV제어 )"

 

▲ alt="0044(▲프리젠테이션 제어)"

 

▲ alt="0045(▲상점에서 제품 정보 확인)"

 

 

소리 및 전파를 이용한 동작인식

소리를 이용해서도 사람의 움직임을 측정할 수 있다. 멀리서 다가오는 기차의 경적소리가 크게 들리는 것처럼 움직임이 있는 물체에 의해 소리가 반사되었을 때는 소리의 주파수가 미세하게 변화하는 도플러 효과를 활용한다. PC에 부착되어 있는 스피커와 마이크를 이용하여 스피커에서 소리가 나오고 있을 때 사람의 손이 근접하게 되면 반사되는 소리의 주파수가 미세하게 변화하는 것을 마이크로 감지함으로써 움직임의 유무를 감지할 수 있다. 미세한 움직임까지 감지하기에는 한계가 있지만 새로운 센서의 탑재없이 기존의 센서를 활용할 수 있다라는 게 가장 큰 장점이다.

 

▲ alt="0046(▲PC의 스피커와 마이크를 이용한 소리 기반의 동작인식)"

 

소리에서 도플러 효과를 이용하듯이 전파도 물체의 움직임에 의해 반사되는 전파의 주파수 성분이 미세하게 변화하는 것을 감지하여 동작여부를 파악할 수 있다. 특히 전파는 장애물 투과가 가능한 장점이 있어서 벽이나 건물 내에 있는 사람의 움직임을 파악하는 보안 관리용도로도 활용할 수 있다. 잠을 자고 있는 사람의 수면패턴을 분석하는 데에도 이러한 전파를 사용할 수 있다.

 

▲ alt="0047(▲벽 뒤에 숨어 있는 사람의 움직임 감지 출처: 엔가젯 www.engadget.com)"


▲ alt="0048(▲장애물 뒤에 숨어 있는 사람의 움직임 감지)"

 

이렇듯 동작인식은 다양한 기술을 활용하며 여러 분야에서 활용이 가능하다.

 

음성인식 기술의 이해

음성인식의 발전

음성인식은 사람의 말을 인식하여 텍스트로 변환하거나 이에 해당하는 명령을 수행하는 기술이다. 전통적으로 컴퓨터 기기를 사용하기 위해서는 마우스나 키보드를 이용하여 단어를 입력하고 원하는 메뉴를 선택하였다. 음성인식은 이러한 방식을 벗어나 사람과 대화하듯이 자연스러운 말을 통해 기기를 제어하고 정보 검색을 할 수 있다.

음성인식기술은 1950년대부터 연구되기 시작하였으나, 2000년대 중반까지도 낮은 음성 인식률로 대중화되는 데에 어려움이 있었다. 1997년에 LG와 삼성은 음성인식 휴대폰을 출시하였는데 대부분 몇 개의 이름 정도만 인식할 수 있었다. 스마트폰 이전의 휴대폰은 저장 용량이나 처리 능력이 한참 부족하였기 때문에 휴대폰용 음성인식 기술은 기초적인 단계에 머물렀다.

2007년에 애플이 아이폰을 출시하면서 휴대폰이 피처폰에서 스마트폰 시장으로 급속하게 변화해갔으며 스마트폰의 대중화와 함께 인터넷을 기반으로 하는 모바일용 클라우드 인프라도 더욱 확충되어갔다. 이러한 IT환경의 변화는 음성인식이 대중화되는데 밑거름이 되었다. 스마트폰을 기반으로 3G, LTE, 와이파이와 같은 빠른 속도의 무선 네트워크가 결합되면서 모바일 기기에서 처리하기 어려웠던 부분들을 서버에서 처리가 가능해져서 모바일 기기가 가졌던 처리 능력한계로부터 자유로워질 수 있게 되었다.

2010년에 선보인 구글의 음성검색 서비스는 그동안 음성인식의 성능에 대해 좋지 않은 선입견을 가지고 있던 사용자들에게 음성인식이 생각보다 좋은 성능이라는 경험과 기대감을 안겨주었다. 2011년 출시된 애플의 아이폰 4S에 탑재된 음성인식 에이전트인 시리(Siri)는 음성인식이 잘된다, 라는 수준을 넘어 자연스러운 대화문장도 이해하는 지능형 음성인식을 현실화시켰다.

이렇듯 스마트폰에 음성인식이 적용이 되면서 음성인식은 새로운 기회를 맞이하였고, 음성인식이 대중화되고 비즈니스적으로 의미있는 시장으로 성장하는데 있어 애플, 구글과 같은 글로벌 기업들의 영향이 컸다.

음성인식 관련 기술 확보를 위해 각 업체는 기존의 음성인식 기술 업체를 인수하였다. 이러한 음성인식 기술 확보 경쟁은 스마트폰 제조사, 인터넷 포털 업체에도 주요한 비즈니스 수단으로 떠올랐고, 각 제품에 음성인식 기술을 적용하거나 포털 검색 서비스에 음성인식 기술을 적용하면서 더욱 경쟁이 치열해지고 있다. 운전 중 지도 검색이나 기기 제어가 편리하도록 자동차에 음성인식이 적용되고 있고, TV 및 에어컨과 같은 가전제품에도 음성인식 기능이 적용되고 있다. 스마트 안경, 스마트 워치와 같은 웨어러블 디바이스에서도 음성인식이 기본 사용자 인터페이스로 적용되어 가고 있다.

 

음성인식의 특징 및 장점

일상생활에서 사람간의 의사소통을 하는 수단은 말과 문자이다. 말을 기록하기 위해 영어는 알파벳, 한국말은 한글, 중국말은 한자라는 문자 시스템을 가지고 있다. 말은 현장 또는 원격지의 상대와 바로 생각을 표현하고 전달하는데 적합하고, 문자는 기록을 오래 남기고 시간적 제약없이 정보를 전달할 때 많이 사용된다. 기존의 컴퓨팅 기기들은 문자에 기반 한 정보 소통을 이루고 있었으며, 사람이 하는 말을 이해하고 처리하는 기술은 여러 한계로 인해 그동안 일반인들에게는 보편화되지 못했다.

음성이라는 수단은 인간에게 친숙한 정보 전달 방법이기 때문에 음성인식을 사용하기 위해 별도의 학습이나 훈련 없이도 쉽고 편리하게 사용할 수 있으며, 기능이 다양한 기기를 조작할 때에도 음성인식 기술이 유용하게 사용될 수 있다. 음성인식은 복잡한 메뉴 구조를 알지 않아도 수행해야 될 사항만을 말하면 알아서 필요한 앱이 구동이 될 수 있다. 예를 들어, 보고 싶은 동영상이 있을 때 스마트폰에 “지난주 개그콘서트 보여줘”라고 말하면 스마트폰이 프로그램을 검색하여 해당 동영상을 화면에 자동 실행해준다.

음성만으로 모든 정보를 정확하게 전달하기에는 어려울 수 있다. 이럴 때는 터치, 동작인식 등 다른 입력 방식과 음성인식을 결합하여 사용할 수 있다. 예를 들어, 지도에서 관심 있는 영역을 동그라미로 선택하고 ‘레스토랑’이라 말하면 영역 내의 음식점을 표시해주는 형태이다. 또한, 게임분야에서는 현실감과 몰입도 향상을 위해 키보드와 마우스 조작 기능의 일부를 음성인식으로 사용하도록 할 수 있다.

손이 자유롭지 않은 상황에서도 음성인식을 활용하면 정보를 언제든지 입력할 수 있게 해준다. 예를 들어 걸어가고 있거나 집에서 요리를 할 때는 손으로 타이핑하기가 쉽지 않다. 하지만 이러한 상황에서도 음성을 이용하면 정보를 쉽게 입력할 수 있게 된다. 자동차 운전을 할 때에도 사용이 가능하고, 산업 현장이나 창고에서 물건을 다루거나 유통업체에서 물품을 분류하는 작업을 수행할 때에도 안전성과 생산성을 높힐 수 있다.

 

▲ alt="0049(▲이동 중에도 음성인식으로 정보를 검색할 수 있음)"

 

음성인식은 실시간 정보 처리에 유용하다. 말하는 게 컴퓨터 자판을 입력하는 일보다 쉽고 빠르기 때문에 고속 또는 실시간으로 정보를 처리해야 되는 콜센터, 병원, 방송 상황에서 신속하게 정보를 입력할 수 있다.

음성은 말하는 사람의 감정이나 심리, 건강 상태 등을 드러내는 것은 물론 신원을 확인하는 수단으로도 활용될 수 있다. 말하는 사람의 음성을 이용하여 사용자의 신분, 심리, 건강상태, 언어 능력 등을 파악할 수 있어 금융, 의료, 보안 등의 분야에서 개인별 맞춤 서비스를 제공하기에 적합하다.

 

음성인식 기술 원리 및 이슈

음성인식 기술은 사람의 목소리를 텍스트로 변환하는 기술과 변환된 텍스트를 기반으로 의미를 이해하는 자연어 이해 기술로 구성이 된다. 텍스트로 변환하는 기술은 ASR(Automatic Speech Recognition)이라 부르고, 자연어 이해는 NLP(Natural Language Processing)라고 한다.

ASR은 입력받은 음성을 컴퓨터가 분석하고 특징을 추출한 다음, 미리 수집된 음성모델 데이터베이스와 유사도를 측정해 가장 유사한 것을 텍스트로 변환한다. 일종의 패턴 인식 과정으로, 사람마다 목소리와 발음, 억양 등이 다르기 때문에 최대한 많은 사람들로부터 음성 데이터를 수집하여 공통된 특성을 추출, 기준 패턴을 생성한다.


NLP는 사용자의 의도를 파악하는 기술인데, 예를 들어 사용자가 “내일 비가 올까?”라는 말을 했다라면 비라는 단어에서 날씨 정보를 사용자가 알고 싶다라는 것을 파악하고 내일 날씨 정보를 검색하여 결과를 알려주게 된다.

음성인식 기술은 미리 정해진 간단한 키워드 형태의 명령어를 인식하는 것부터 시작하여 낭독체 연속어 인식, 대규모 연속어 인식을 거쳐 지금은 일상생활의 모든 자연스러운 대화 및 모든 사용자를 인식할 수 있는 무제한급의 자연어 인식으로 발전하고 있다.


음성인식 기술은 사용자에 따른 인식률 차이, 주변 잡음, 인식대상 어휘 제한, 국가별 언어 차이 등으로 인해 보편적으로 활용되기에는 여러 한계가 있으며, 음성인식의 정확성을 높이기 위해서는 음성패턴을 학습하는 기간이 필요하다. 개인차에 따른 음성인식률 향상을 위해서는 성별, 연령, 사투리 등에 대한 방대한 음성DB 확보도 필요하다. 정형화된 문장이나 일정 범위의 어휘로 한정될 경우에는 이미 높은 정확도를 보이고 있으며, 네트워크와 컴퓨팅 기술의 발달로 자연어 음성 인식률이 계속 개선되고 있다.

기술적 난관 이외에 사용자들이 이미 익숙해져 있는 키보드, 마우스, 터치의 사용 습관을 어떻게 극복할 것인가도 해결할 이슈이다. 텍스트를 입력할 때 대부분의 사람들은 타이핑을 하는 것에 익숙하다. 상황에 따라서는 타이핑 속도가 느림에도 불구하고 말보다 타이핑이 훨씬 더 편하다고 느끼는 경우도 있다. 이는 남을 방해하지 않고 조용히 정보를 표현할 수 있으며, 남이 알아듣지 못하도록 하는 보안성이 있기 때문이다.


또한, 기기에 대고 혼자서 말하는 행동 자체가 어색해서일 수도 있다. 일반적인 일상생활에서도 말 잘하는 것과 글 잘 쓰는 것은 분명히 차이가 있다. 말을 잘 하지 못해도 글은 잘 쓰는 사람이 있고, 그 반대의 경우도 있다. 말은 하나의 문장을 연속적으로 즉시 완성을 해야 되지만 글은 문장을 완성하는데 있어서 더 많은 시간을 투자하여 고민하며 완성할 수 있다. 아직까지는 음성인식이 일상생활에서 보편적으로 사용되기는 사람들에게 심리적, 문화적 장벽이 있다고 할 수 있다.

 

주요 음성인식 서비스


구글의 음성인식 서비스

구글의 음성인식 서비스는 2010년 1월 출시된 안드로이드 2.1버전부터 본격적으로 가시화되었다. 구글은 안드로이드 2.1버전의 첫 단말인 넥서스원에 다이얼, 이메일 등 다양한 기능을 음성으로 제어할 수 있는 음성 인식 서비스를 공개했다.


2010년 6월에는 한국어 버전의 음성인식 서비스를 출시하였고, 2010년 8월에는 안드로이드 2.2 이상 버전을 탑재한 단말기에서 전화걸기, 문자보내기, 메일작성, 메모, 일정 예약, 알람, 목적지 찾기, 지도 검색 등을 음성으로 실행할 수 있는 보이스액션(Voice Action) 서비스를 발표하였다.

2012년부터는 음성검색이 지원되는 구글 나우 서비스를 제공하였다. 구글 나우는 인물, 주식, 날씨, 교통 정보 등을 물어보면 음성으로 답을 해주며 영화, 식당, 뉴스, 사진 등에 대해 말을 하면 관련 정보를 검색해준다. 예를 들어 “내일 서울에 비가 올까?”라고 물으면 “서울특별시 지역은 내일 저녁에 비가 오지 않을 것으로 예상됩니다. 구름이 많이 끼겠으며, 예상기온은 27도입니다” 라고 음성합성으로 들려준다. “근처 주유소 찾아줘”, “오늘 주식 정보”, “경복궁 가는길 알려줘”라고 말을 하면 해당 정보를 검색을 해준다.

안드로이드 웨어가 탑재된 스마트워치에서도 구글 나우를 사용할 수 있다. “오케이 구글”이라는 음성 호출어를 사용하여 음성입력 모드로 진입하며 “메모 작성, 서점에서 책사기”, “알림 오전 7시에 달리기 운동”, “알람 설정 오늘 저녁 6시”, “일정 목록 오늘”, “뮤직 실행”, “타이머 ”, “스톱워치” 등 다양한 앱 실행이 음성으로 가능하다. 그리고 “곧 도착해라고 민준이한테 문자 보내”라는 식으로 문자 메시지 및 이메일을 음성으로 보낼 수 있다.

 

▲ alt="0050(▲스마트폰에서의 구글 나우 서비스)"

▲ alt="0051(▲구글 안드로이드 웨어 스마트 워치에서의 음성인식)"

 

애플의 음성인식 서비스: 시리

애플의 시리는 뉘앙스란 음성인식 업체의 ASR과 시리라는 자연어 이해 기술을 결합한 서비스이다. 애플에 적용된 시리는 원래 미국 정부의 지원을 받아 2003년부터 2008년까지 진행된 연구 프로젝트의 산물이다. 미국 국방부는 인공지능 기술 확보를 위해 CALO(Cognitive Assistant that Learns and Organizes)라는 프로젝트에 연구비 2억 달러를 지원했는데, 이 프로젝트는 스탠퍼드대학교에서 분리된 SRI인터내셔널이 주도했고 미국 25개 대학 및 연구기관의 연구원 300여명이 참여했다.


SRI인터내셔널은 이 프로젝트 중에서 ‘음성개인비서 연구부문’을 독립시켜 2007년 12월에 시리라는 벤처기업을 설립했다. 이후 iOS용 앱을 개발해 2010년 4월 애플 앱스토어에 등록하였고 이후 애플에 의해 인수가 되었다. 2011년 10월에 애플은 아이폰4S를 공개하면서 음성인식 시리를 대표적인 신규 기능으로 선보였다.

시리는 사용자의 음성명령을 인식하고 웹과 온라인 서비스를 검색해 답변을 제공하는 인공지능형 음성인식 서비스이다. 시리는 단순히 사용자의 음성을 인식하는 것뿐 아니라 현재 위치와 일정 계획 및 주소록 등의 상황정보, 사용 시간에 따라 이용자 선호도를 파악해 답변을 제시한다.

 

▲ alt="0052(▲애플 시리)"

 

시리는 음성 검색, 영화 예매, 식당 예약, 스포츠 검색 등의 다양한 생활형 서비스와의 연계를 확장해 가고 있다. 일정 입력의 경우에 예를 들어 10월 9일에 새로운 일정을 반영하도록 명령하면 시리는 해당 날짜에 일정이 이미 있는지 체크하고, 겹치는 일정이 있으면 다른 일정으로 변경하도록 제안한다.

 

기타 음성인식 서비스

MS는 2007년에 음성인식 업체 텔미 네트웍스를 인수하였다. X박스에 자체 검색엔진인 Bing과 함께 음성검색 기능을 추가하였고, 포드 및 현대 자동차 등과도 제휴를 하여 차량 내 음성인식 시스템을 공급하기도 하였다. 2014년 4월에는 윈도폰 8.1에 코타나라는 음성인식 서비스를 지원하였다. 코타나는 애플 시리와 같은 지능형 음성인식 비서이며, PC용 윈도우9에도 탑재되는 것으로 알려졌다.

이외에 스마트폰 업체에서는 LG전자가가 Q보이스를, 삼성전자는 S보이스라는 음성인식 서비스를 제공하고 있다. 전통적으로 음성인식에 많은 연구를 진행해왔던 IBM과 AT&T도 자체 음성인식 솔루션을 가지고 있으며, 뉘앙스라는 업체는 여러 음성인식 관련 업체를 인수 합병해 옴으로써 애플 및 삼성이 음성 인식 기술을 도입하여 사용할 정도로 대표적인 음성인식 기업으로 자리매김을 하고 있다. 국내의 경우에는 주요 포털 사이트인 다음과 네이버에서도 음성 검색 서비스를 제공하고 있다.

 

음성인식의 활용 분야

음성인식은 복잡한 메뉴 구조를 사용하지 않고 직관적 정보 입력을 가능케 한다. 수많은 메뉴들을 찾아다니거나 조그만 키보드를 두드리는 것보다는 한마디의 명령어가 훨씬 간단하다. 음성인식은 자동차에서 핸즈프리 형태의 사용에도 유용하다.

음성인식 기술은 다른 IT 기기나 서비스와 결합되었을 때에 그 파급력이 더욱 높아질 수 있다. 애플의 시리는 지능형 검색엔진인 울프럼 알파 및 식당, 영화, 스포츠 정보를 제공하는 전문 서비스 업체와 결합하여 기존보다 향상된 형태의 음성인식 서비스를 제공하고 있으며 앞으로의 음성인식 기술은 다양한 기기나 서비스와 융합됐을 때 실생활에서 훨씬 많이 사용될 수 있다. TV나 내비게이션, 가전기기, 홈네트워킹, 금융서비스 등에도 적용될 수 있다.

 

정보 검색 및 채팅

정보 검색은 음성인식의 가장 기본적인 서비스이며 키보드를 통한 문자입력이 어려운 경우에 음성인식으로 단어를 입력하여 정보를 검색한다. 일상적으로 말하는 자연어 문장을 인식하여 검색을 해주는 자연어 검색이 중요하다.

지도를 검색할 때에도 음성 명령어를 사용할 수 있는데 지도를 보면서 원하는 명령어를 말하면 찾아줄 수 있다. 다음 지도에 적용된 음성인식 기능은 ‘여기서 서울 시청 가는 길’, ‘고속터미널 가는 방법’ 등과 같이 말하면 지도를 검색해준다. 구글맵에도 음성인식 기능이 적용되었는데 구글맵의 검색창에 있는 음성 입력 아이콘을 누르면 음성 검색어 입력이 가능하다. 심심할 때는 음성으로 채팅을 하며 재미있게 할 수 도 있다. 음성 에이전트는 사용자의 애꿎은 질문에도 익살스러운 답변을 하기도 한다.

 

▲ alt="0053(▲음성인식 채팅 서비스)"

 

자동차

운전 중에 목적지를 찾아가기 위해 터치입력으로 내비게이션에 정보를 입력하다보면 상당히 위험한 상황이 발생할 염려가 있다. 내비게이션을 안전하고 편리하게 사용하기 위해 음성인식기술이 적용되고 있다.

음성인식 기능을 구동하기 위해 “헬로우 OO”와 같은 음성 호출어를 통해 음성입력 기능을 구동한 후에 “가장 가까운 주유소”, “가장 저렴한 주유소” 등의 질문만으로도 목적지를 찾아갈 수 있다.

BMW, GM, 포드 등의 글로벌 주요 자동차 회사들도 음성인식 기능을 자동차 시스템에 도입하고 있으며, 운전 중에 음성으로 음악 선택, 목적지 검색, 문자메시지를 사용할 수 있다.

▲ alt="0054(▲내비게이션에서의 음성인식)"

 

 

전화 서비스

미국 통신업체 AT&T의 콜센터는 음성인식 기술을 이용해 고객과 상담원의 대화 내용을 실시간으로 받아쓰기하여 글자로 바꿔준다. 또한 고객의 말투를 분석해 이 고객이 화가 났는지, 차분한 상태인지 등의 감정 상태를 파악하고 데이터베이스와 대조한 후 해당 상태에 적합한 답변을 상담원이 보는 화면에 띄워준다.

말로 거는 전화 서비스는 업체의 전화번호를 외우거나 누르지 않아도, 연결하고자 하는 업체의 이름이나 상호, 브랜드명, 관공서 이름을 말하면 바로 연결이 가능한 음성인식 통신서비스이다. 국내에서 '말로 거는 전화 1636' 라는 서비스로 제공이 되고 있으며, 전화번호를 외우기 힘들어하는 소비자와 전화번호를 홍보하기 부담스러운 소규모업체, 전국에서 전화번호를 문의하는 관공서나 지자체 등 다양한 곳에서 활용할 수 있다.

 

자동 통역

자동통역기술은 다른 언어를 사용하는 사람 간에 대화가 가능하도록 언어를 서로 실시간으로 변환해주는 기술이다. 두 사람 간의 대화 통역뿐만 아니라 여러 언어를 사용하는 사람들 간의 통역도 가능하도록 기술 개발이 계속 이루어지고 있다. 자동통역을 위해서는 적어도 두 개 이상의 언어를 처리해야 하므로 각각의 언어 기술을 확보해야 하며, 1995년에는 다국어 간 자동통역 기술을 효율적으로 개발하기 위한 국제 자동통역 공동연구 컨소시엄이 결성되기도 하였다.

 

동영상 번역

동영상 공유 사이트인 유튜브는 서버에 등록된 동영상을 대상으로 동영상내의 음성을 인식하여 자동으로 자막을 삽입해주는 서비스를 제공하고 있다. 또한, 인식된 텍스트는 다양한 언어로 번역이 될 수 있으며, 사용자가 선호하는 국가의 언어를 선택하면 해당 언어로 자막으로 표시된다.

 

외국어 학습

외국어 학습은 대화를 통해 말을 많이 하는 것이 효율적이다. 하지만 현실적으로 전문 원어민 강사 및 학습자의 흥미를 유발한 학습 방법이 부족하다. 음성인식 기술은 혼자서 외국어 학습시에 억양 및 발음 교정을 위해 활용되고 있으며, 최근 의사소통 중심의 실용 영어가 중요시되면서 교육 분야에서의 음성인식 기술 적용이 확대되고 있다.


특히 음성인식을 활용한 발음교정 프로그램이 잇따라 출시되고 있는데, 원어민의 발음을 듣고 이용자가 주어진 단어 혹은 문장을 말하면 프로그램이 직접 음절 단위로 발음, 억양, 강세, 속도 등을 분석해 잘못된 부분을 교정해 준다. 대화형 외국어 교육은 시나리오 및 역할 부여를 통해 학습자의 흥미를 유발하고 시간 및 공간적 제약에서 비교적 자유롭게 학습을 할 수 있다.

 

가전 제품

TV의 채널검색을 할 때 음성으로 원하는 드라마 이름이나 방송국을 말하면 해당 프로그램을 검색하여 자동으로 채널을 변경해준다. 지상파 및 수많은 케이블 방송 채널에서 원하는 프로그램을 빠르게 찾는 게 쉽지 않은데 음성인식을 이용하면 좀 더 편리하게 검색할 수 있다.

향후에는 홈 쇼핑을 시청할 때 상품의 이름을 말하면 구매가 가능한 화면으로 이동하고, 축구 시청 중에는 ‘지금 골을 넣은 선수의 이름은?’, 드라마를 볼 때는 “지금 출연 중인 배우 프로필은?”과 같은 이라는 실시간 질문에도 답을 하는 수준으로까지 발전하게 될 것으로 보인다.

MS는 Xbox360에 음성인식 기술을 검색엔진 빙과 접목하여 말로 원하는 콘텐츠를 검색해주는 음성 검색 서비스를 적용하였고, 국내의 LG 및 삼성에서 출시하는 스마트 TV에도 음성인식 기능이 탑재되어 프로그램 및 정보검색이 가능하다, LG에서 출시한 스마트 TV의 매직 리모컨에는 마이크가 달려있어 사용자가 리모컨에 대고 말을 하면 음성인식이 되어 TV를 제어할 수 있다. 로봇청소기, 에어컨 등에도 음성인식 기능이 내장되어 별도의 리모컨이 없어도 전원을 on/off하고 편리하게 기능을 제어할 수 있다.

 

▲ alt="0055(▲음성인식으로 로봇 청소기 제어)"

 

▲ alt="0056(▲스마트폰 음성인식으로 세탁기를 원격 제어)"

 

보안 및 금융분야

사용자의 음성으로 신원이나 감정, 심리 상태를 파악하여 본인인증, 신용평가 활용 서비스 등을 제공할 수 있다. ATM기기에서 금융 거래시에 음성으로 질문을 하여 사용자 답변 내용을 분석하여 금융 거래 가능 여부를 결정할 수 있다. 이러한 사용자 인증을 통해 신용카드 발급 등 다양한 신용거래를 ATM에서 처리 가능하게 된다.

 

의료

의사가 환자를 진찰하고 처방전을 작성 할 때 컴퓨터에 직접 타이핑을 하지 않고 음성으로 입력하여 환자에 대한 진찰 내역이나 처방전을 작성할 수 있다. 진찰시에 의사와 환자의 대화를 녹취하여 대화 내용을 텍스트로 변환하여 나중에 의료 사고시에 기록 검색을 할 수 있고, 평상시에는 환자관리에 활용할 수도 있다.

 

▲ alt="0057()"


장애인

음성인식 기술은 신체 활동이 어려운 장애인들을 위한 환경 제어 장치에도 탑재돼 활용된다. 장애인의 음성명령을 인식하여 침대의 모터 구동, 조명 제어, TV제어, 도우미 호출 등을 할 수 있다. 엘리베이터를 이용하는 장애인이나 노약자들이 엘리베이터 층수 버튼을 누를 필요 없이 음성인식으로 간단히 이동할 층수를 설정이 가능하다. 예를 들어, 휠체어를 타고 다니는 장애인이 엘리베이터에 진입한 후 5층이라는 단어를 말하여 층수를 설정하게 된다. 방송 분야에서는 청각 장애인들을 위한 실시간 자막방송에도 음성인식이 적용될 수 있다.

 

▲ alt="0058(▲엘리베이터에서 음성으로 층수 입력)"

 

▲ alt="0059(▲장애인이 음성으로 침대 제어)"

 


물류센터

물류센터는 매일 엄청난 양의 물건들이 이동을 하는 곳이다. 창고에 어떤 물건을 보관할 때 직원이 음성으로 간단히 제품에 대한 메모 또는 처리 사항을 입력할 수 있다. 근로자가 양손으로 상품 분류 및 포장을 하는 도중에도 작업 진행 상황과 재고 현황 등을 시스템에 등록할 수 있다.

 

▲ alt="0060(▲창고에서 작업할때 음성인식 사용)"

 

▲ alt="0061(▲게임에서 음성명령으로 게임 캐릭터 제어)"

 

게임

게임할 때에는 터치스크린이나 마우스 등과 함께 사용하며 음성으로 게임에 대한 정보를 입력할 수 있다. 캐릭터가 이동해야 될 지점을 입력하거나, 다양한 옵션을 조정할 수 있다. 음성으로 게임 캐릭터에 명령을 내릴 수 있고, 게임 아이템을 제어할 수 있다.

 

 


회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지