멀티미디어 신호처리의 개요이동통신 분야에서 멀티미디어 신호처리라함은 인체의 소리, 영상이나 다양한 표현 매체들을 자동으로 인식하고 관련 정보를 처리하는 기술을 말한다. 이러한 신호처리 기술은 음성 코딩, 영상 코딩, 오디오 코딩, 음성인식, 영상인식, 패턴인식, 생체인식 기술 등으로 나눌 수 있다.이 글에서는 음성, 오디오, 영상 코딩 분야의 기술동향을 설명하고 현재 활발히 연구개발되고 있는 다양한 멀티미디어 신호처리 분야에 대해서도 소개한다.디지털 멀티미디어 신호처리디지털 신호처리의 발전은 음성 정보에 국한된 서비스를 멀티미디어 서비스로 진화시켰다. 디지털 정보는 방대한 정보량을 가지고 있기 때문에 이를 저장, 처리 및 전송하기 위해서는 데이터의 압축 기술이 필요하다.디지털 음성 신호처리새로운 디지털 이동통신 시스템의 출현과 유선통신 시스템의 비약적인 발전과 더불어 높은 수준의 디지털 음성 코덱 기술 개발이 진행되고 있다. 초창기의 디지털 음성 코덱은 단순히 아날로그 음성의 파형을 샘플링하여 양자화하는 PCM(Pulse Coded Modulation) 방식을 채택하였으나 근래의 디지털 음성 코덱은 인간의 발성 원리와 청각 특성 등을 분석하여 최적의 매개변수를 찾아 이를 부호화하는 기법으로 발전하였다. 또한 기존의 음성 코덱은 대화 위주의 의사전달이 가능한 협대역(0.2~3.4kHz) 음성 코덱들이 사용되어 왔으나, 최근의 음성 코덱들은 낮은 수준의 오디오 서비스와 높은 수준의 음성 서비스가 가능한 광대역(0.05~7kHz) 음성 코덱들이 등장했을 뿐 아니라 기존의 방송 영역에서나 가능한 다양한 멀티미디어 콘텐츠(contents)를 수용할 수 있는 오디오 부호화 영역의 주파수 대역까지(15~20kHz) 처리할 수 있는 부호화기들이 디지털 통신 시스템에 적용되고 있는 상황이다.음성/오디오 코덱 기술에서 중요한 요소는 전송속도, 다양한 환경 하에서의 음성품질, 음성 부호화 지연시간, 복잡도로 나뉘어질 수 있다. 전송속도 관점에서 음성 코덱을 본다면 협대역 음성 코덱은 평균 전송속도 4Kbit/s 에서 Toll 품질(Toll quality) 수준의 협대역 음성 코덱들이 개발되었으며, 광대역 음성 코덱은 24Kbit/s 급에서 개발이 되었고, 최근의 오디오 코덱 기술은 약 48Kbit/s에서 CD 수준의 오디오 품질을 나타내는 코덱들이 출현하였다. 음성품질 관점에서 본다면 다양한 무선 채널 환경 변화와 배경 잡음 하에 음성품질의 현격한 성능 저하를 보이지 않아야 하며, 이는 실제 응용분야에 중요한 요소로 작용한다. 부호화 지연시간은 디지털 음성 코덱을 위하여 입력 데이터를 수집 및 처리하는데 요구되는 시간을 의미한다. 일반적으로 낮은 전송속도의 음성 부호화기는 높은 지연시간을 가지며 이러한 지연시간은 디지털 통신 시스템의 지연시간과 맞물려 라인 에코와 같은 형태로 전체적인 음성품질을 저하시킨다. 복잡도는 음성 부호화기를 실제 DSP(Digital Signal Processor) 등으로 구현할 때 DSP가 요구하는 계산량과 메모리 크기를 의미하며 다양한 기능을 하나의 단말로 융합하려는 추세에 따라 적은 용량의 복잡도를 가지는 음성 코덱이 바람직하다.ITU에서 표준화한 대표적인 음성 코덱은 협대역 음성 코덱으로 G.729와 광대역 음성 코덱으로 G.722.2가 있다. G.729 코덱은 8Kbit/s 전송속도를 가지며 CS-ACELP(Conjugated Structure - Algebraic CELP) 방식이다. 이 방식은 15msec 의 짧은 알고리즘 지연시간을 가지고 있으며 최초로 8kbit/s 급의 전송속도에서 Toll 음질을 보여준 음성 부호화기이다. G.729 코덱은 사용되는 응용분야에 적합하게 G.729A, G.729B 등 여러 가지 부록들을 추가로 표준화 하였다. G.729 코덱은 특히 IP 텔레포니 시스템으로 널리 사용되고 있다. 최근 통신 시스템의 전송 주파수 대역이 넓어짐에 따라 사용자들은 보다 높은 품질의 음성 부호화기 성능을 요구하게 되었다. 광대역 음성부호화기들은 이러한 요구에 부흥하기 위하여 ITU-T에서 표준화로 제정되었다. 2002년에는 3GPP에서 표준화가 완료된 AMR-WB(Adaptive Multi Rate - Wideband) 음성부호화기의 일부 모드를 G.722.2로 표준화 하였다. 광대역 음성 코덱은 상호 통화시 음성의 자연성(Naturalness) 및 인지성(Intelligibility)을 높여 자연스러운 대화가 가능할 뿐 아니라 낮은 수준의 오디오 레벨의 응용분야까지 영역을 확장시킬 수 있어 향후 통신 시스템의 음성 통화에 높은 이용이 기대된다.3GPP에서는 유럽형 3세대 이동통신 시스템인 WCDMA에서 사용될 협대역 음성 코덱으로 AMR 음성 코덱을 표준화 하였다. AMR 음성 코덱은 총 8개 모드 중 하나로 음성을 부호화하며, 각 부호화 모드는 무선 채널의 상태나 네트워크의 상태에 따라 변경된다. 또한 3GPP에서는 광대역 음성 코덱으로 AMR-WB를 표준화 하였다. AMR-WB 코덱은 ITU-T에서 IP 텔레포니 응용분야로 표준화가 되었기 때문에 향후 이동통신 시스템과 IP 텔레포니 시스템 간의 호환성도 보장된다.북미의 EIA/TIA에서는 8Kbit/s의 전송속도로 유선전화 품질의 서비스가 가능한 EVRC 음성 부호화기가 CDMA 이동통신에서 IS-127로 채택되었는데, EVRC 음성 부호화기는 여기신호 발생을 위하여 RCELP(Relaxed Code Excited Linear Preciction) 방식과 ACELP 방식을 혼합하여 채택하였다. 북미 3세대 이동통신 시스템용 음성 부호화기를 개발하기 위하여 3GPP2 TSG-C(Technical Study Group - C) WG1.1 (Working Group 1.1)에서 SMV(Selectable Mode Vocoder)를 협대역 음성 코덱으로 2000년 표준화 하였다. 주파수 채널 환경과 네트워크 환경에 따라 CDMA 이동통신 Rate-set I에서 프리미엄 모드, 표준 모드, 이코노미 모드로 나누어지게 되며 SMV 음성 부호화기는 각 모드에 맞게 최적의 음성 부호화 전송속도로 부호화하게 된다. 2004년에는 북미 3세대 이동통신 시스템에 채용할 VMR-WB(Variable-rate Multi-mode Wideband) 광대역 음성 코덱을 표준화 하였다. 이 음성 코덱은 CDMA 이동통신 Rate-set II에서 광대역 음성부호화가 가능하도록 설계되었다. 또한 유럽의 3세대 이동통신에서 채택한 AMR-WB와 상호호환이 가능하다.통신기술의 발전과 더불어 최근의 음성 코덱들의 개발방향은 유/무선 통신 시스템에서 고품질의 멀티미디어 응용 서비스 혹은 고품질의 양방향 통화 서비스가 가능한 음성 코덱들이 주목받고 있다. 또한 무선 채널 상황, 네트워크 자원 등의 네트워크의 특성에 적응하는 음성 코덱들의 개발이 이루어지고 있다. 현재 ITU-T SG16(Study Group 16) Q.9(Question Group 9)에서는 패킷 통신망에서 적응적으로 전송속도 변화가 가능하고 서로 다른 네트워크에서 호환이 가능한 VBR(Variable Bit Rate) 음성 코덱의 표준화를 진행중에 있다. 특히 EVRC나 SMV와 같이 음성의 묵음에 따른 전송속도를 변화하여 가변 평균 전송속도를 정하는 MSC-VBR(Multi-Rate Source Controlled - VBR) 음성 코덱과, 네트워크의 상태나 자원에 따라서 전송속도를 변화하는 EV(Embedded VBR) 음성 코덱이 각각 표준화 중에 있다. 음성 코덱들에 대한 광대역 음성품질 보장을 포함한 요구사항에 대한 정의가 완료되었고, 특히 G.729를 코어 코덱으로 사용하고 비트율 및 대역이 가변적으로 변화하는 G.729EV 코덱에 대한 표준화가 진행중에 있으며, 이 표준화에 참여한 업체들로부터 제안된 음성 코덱들의 성능을 검증하고 선택하기 위한 작업들이 2005년 현재 수행중이다.디지털 오디오 신호처리최근까지의 디지털 오디오 기술에 대한 연구는 고품질 오디오 신호를 효율적으로 압축하기 위한 코딩 기술에 주로 집중되어 왔다. 현재 오디오 부호화에 기본적으로 사용되는 심리 음향 코딩 방식(Perceptual Audio Coding)은 음악파일을 압축하는데 인간 청각의 인식능력을 고려하여 압축하는 방식인데, 사람의 귀로 들을 수 없는 소리나 소음을 원래의 음악에서 제거하거나 여러 소리를 합쳐서 압축한다.심리 음향 모델을 사용하여 음원을 효과적으로 부호화하기 위한 디지털 오디오 부호화 기술은 MPEG(Moving Picture Experts Group)을 중심으로 발전을 거듭해 왔으며, 최근에는 보다 다양한 형태의 오디오 코딩 기술이 표준화되었고 상용화 시스템에 적용되고 있다. MPEG의 MPEG-4 오디오 기술은 압축기술을 특정 응용분야에 한정하는 대신 압축할 정보를 음성, 배경음악, 효과음 등 다양한 구성요소의 결합으로 처리하는 식으로 구성됐다는 점이 특징이다. 이 기술이 범용성과 객체기반 구성 및 조절성, 콘텐츠 기반 상호작용성 등 새로운 개념을 도입할 수 있었던 것도 이런 이유다. 결과적으로 MPEG-4 오디오의 부호화 영역은 2kbps의 낮은 비트 전송률 음성 부호화에서부터 채널당 64kbps 이상의 고음질 오디오 부호화에 이르기까지 확장됐다.MPEG-4 오디오 그룹은 ER(Error Resilience), BSAC(Bit Sliced Arithmetic Coding) 등 새로운 알고리즘을 수용하며 버전 2로 발전했고, 버전 3에 이르러 AAC(Advanced Audio Coding)와 SBR(Spectral Band Replica)이 결합된 MPEG-4 HE-AAC(High Efficiency-AAC)가 표준으로 자리잡았다. 최근에 MPEG-4 HE-AAC 기술에 PS(parametric Stereo) 기술에 포함된 오디오 프로파일이 MPEG 오디오 그룹에서 표준화가 완료되었다.다른 표준화 단체들의 기술동향을 살펴보면, 3GPP의 SA WG4에서는 PSS(Packet Switched Streaming), MMS (Multimedia Messaging Service), MBMS(Multimedia Broadcast Multicast Service) 음성 및 오디오 코덱에 대한 표준화를 수행하였다. 최근 두 개의 음성/오디오 코덱에 대한 표준화가 완료되었는데. AMR-WB+ 코덱은 ACELP와 TCX(Transform Coded Excitation) 기술을 이용하여 6~48Kbit/s의 전송속도와 20KHz의 주파수 대역을 갖는 음성 혹은 오디오에 대한 부호화를 수행할 수 있으며, 기존의 AMR-WB와 상호호환이 가능하다. Enhanced AAC+(Advanced Audio Codec plus)는 SBR 기술과 BCC(Binaural Cue Coding) 기술을 이용하여 최고 48KHz로 샘플링된 오디오 신호를 48Kbit/s 전송속도로 부호화가 가능하다. 특히 Enhanced AAC+는 DMB(Digital Multimedia Broadcast), DVB-H (Digital Video Broadcast - Handheld) 등의 이동방송 통신 시스템에서도 표준 오디오 코덱으로 채택되었다.OMA(Open Mobile Alliance) BCAST(Broadcast) STI(Standard Transcoding Interface) 분과에서는 다양한 네트워크에서 멀티미디어 데이터들의 호환을 위하여 표준화된 멀티미디어 변환 인터페이스 및 변환 엔진에 대한 연구가 진행중에 있다. 현재 서로 다른 이종망 간에 영상, 오디오, 음성의 효율적인 전송 및 변환을 위한 표준화 작업이 진행중에 있다.WMA(Windows Media Audio Codec)은 인터넷 환경에서 음향과 음악면에서 가장 최적화된 고품질의 새로운 오디오 코덱으로 마이크로소프트(MS) 연구소에서 개발되었다. WMA는 낮은 대여 폭인 8KHz서부터 높은 대역폭인 48KHz 스테레오 뮤직까지 모든 타입의 높은 음질을 제공해준다.한편 다른 측면으로는 멀티미디어 장치의 성능과 효율이 향상되고, 전송 채널의 채널폭이 광대역화되면서 콘텐츠의 고급화와 실감성 향상이 좀 더 중요한 요소로 인식되고 있다. 사실 3차원의 실감 오디오 기술은 오디오 콘텐츠를 녹음하고 재생하는 분야에서 아주 오래된 관심사이다. 최근 재생 프로세서 및 신호처리 기술의 발달로 인하여 3차원 오디오 구성이 용이해지면서 실감 오디오에 대한 효과적인 기술개발이 진행되고 있다. 이동통신 분야에서는 2개의 재생 채널로 3차원적인 효과를 얻을 수 있는 기술개발에 대한 필요성이 더욱 높아지고 있으며 현재 머리전달함수(HRTF : Head-Related Transfer Function)를 사용한 분야의 기술개발이 한창이다.디지털 영상 신호처리이동통신 분야에서 주로 사용되는 영상신호처리 기술은 압축 기술이며, 영상 압축은 정지영상과 동영상의 압축기술로 나눌 수 있다. 정지영상의 경우에는 DCT(Discrete Cosine Transform), JPEG 기법이 있다. 동영상압축 분야는 1980년대 후반 디지털 동영상 정보의 부호화 및 저장기술 표준규격을 제정해야 한다는 요구가 제기되면서 기술발전이 가속화 되기 시작했다.이에 따라 국제전기통신연합(ITU)은 유무선 통신망 환경에서 동영상 서비스를 위한 표준 규격인 H.261과 H.263을 제정했고, 세계표준화기구(ISO)도 동영상 표준 규격인 MPEG-1, MPEG-2, MPEG-4를 마련하는 등 세계적인 표준화 논의가 활발했다. H.263+와 MPEG-4 표준이 개발된 뒤 무선통신이 급격히 확산되면서 종전 압축방법에 비해 더욱 향상된 압축효율을 제공하고, 다양한 통신환경을 수용할 수 있는 동영상 압축기술 규격의 필요성이 대두됐다. 이에 ITU는 H.26L로 명명한 차세대 부호화 방식의 ‘기술제안요청서’를 발표했으며, 각급 기업체·연구소·학계의 활발한 연구가 진행됐다. 이후 2001년 ISO/IEC의 MPEG 그룹이 H.26L 프로젝트에 참가함으로써 마침내 ITU-T는 H.264라는 표준을 승인했고, 이어 8월 ISO/IEC에서 MPEG-4 Part 10으로 최종 승인했다(본 글에서는 H.264/AVC로 명명한다).ITU-T와 ISO가 공동 제정한 차세대 동영상 압축 표준 H.264/AVC는 다양한 네트워크 환경에 쉽게 부응할 수 있는 유연성과 동영상의 부호화 효율성 측면에서 MPEG-2, MPEG-4 (Part 2) 등 기존 기술표준들에 비해 많은 진보가 있었다. 비록 H.264/AVC가 기존의 표준들과 하이브리드 비디오 부호화라는 유사한 방식을 이용하고 있으나 여러 기술적 우위를 지니고 있다. H.264/AVC가 MPEG-2, MPEG-4(Part 2) 등 기존 동영상 압축 표준에 비해 높은 압축성능과 유연성의 장점을 가진 반면, 부호기 및 복호기의 복잡도 역시 훨씬 증가한다는 단점이 있다. 부호기 측면에서는 기존 표준보다 더욱 많아진 파라미터 및 부호화 모드를 결정해야 하며, 복호기도 디블로킹 필터나 1/4화소 단위의 움직임 보상 등으로 인해 계산량이 매우 증가했다. 따라서 H.264/AVC를 상용화 하기 위해서는 기술원리를 정확히 이해하고, 효율적으로 부호기·복호기를 구현하는 적용기술이 매우 중요하다.VC-1 코덱은 MS사의 WMV9(Microsoft Windows Media Video 9) 사양으로부터 파생된 기술로서 약 절반 정도의 대역폭만을 사용하면서 MPEG-2 비디오 코덱과 유사한 품질을 제공한다. VC-1은 H.264/AVC에 견줄만한 성능을 제공하며, VC-1은 H.264/AVC와 더불어 DVB-H 영상 서비스 표준에 포함되는 것으로 표준화가 진행되고 있다.영상 압축 분야에서 최신의 연구 추세는 MPEG 21 Part13인 SVC(Scalable Video Coding) 표준화와 성능이 향상된 H.264 코덱의 부록(annex) 표준화이다.디지털 멀티미디어 이동방송최근 떠오른 디지털 멀티미디어 이동방송은 기존 방송이 일방적인 정보전달에 그친 것과는 달리, 통신을 이용한 양방향 서비스를 가능하게 하는 통방융합 서비스이다. 멀티미디어 이동방송은 휴대 이동 단말기로 고속 이동 중에도 시간적 공간적 제약을 뛰어넘어 언제 어디서나 방송을 수신할 수 있게 하는 기술로 최신의 멀티미디어 신호처리 기술의 결과물이다. 멀티미디어 이동방송의 대표적인 방식들로 DMB(Digital Multimedia Broadcasingt), DVB-H(Digital Video Broadcasting-Handheld), Media-FLO(Forward Link Only), 3GPP MBMS(Multimedia Broadcast and Multicast Service), 3GPP2 BCMCS(BroadCast MultiCast Service) 등을 들 수 있다.국내 위성 DMB의 경우 ITU-T BO.1130-4의 시스템 E를 이용하여 서비스를 제공하는 방식으로, MPEG-2 HE-AAC와 H.264를 이용한 오디오 및 비디오 서비스를 함께 제공한다. 지상파 DMB는 Euraka-147 시스템에 멀티미디어 서비스를 위하여 H.264 비디오 및 BSAC 오디오를 스트림 모드에서 전송한다.멀티미디어 트랜스코딩 기술향후 IP 패킷 네트워크 환경은 현재보다 더 다양한 네트워크와 사용자 단말이 혼재된 상황에 추가하여 서로 다른 멀티미디어 압축 방식들이 공존할 것으로 예상된다. 따라서 각각의 네트워크 대역폭, 단말기 및 콘텐츠 특성을 고려한 제한되고 개별적인 서비스만 가능하게 될 것이다.이러한 문제를 근본적으로 해결하기 위한 방안이 하나의 콘텐츠(one source)를 성능과 특성이 서로 다른 다양한 환경(multi-use)에서도 사용 가능하도록 기능을 제공하는 것이다. 이 같은 “one source multi-use” 개념을 구현하기 위해서는 원래의 콘텐츠를 각 네트워크 대역폭, 단말기 특성 및 성능에 적합하도록 멀티미디어 콘텐츠를 가공/변환/선별하는 과정이 필요하며, 이러한 과정을 멀티미디어 트랜스코딩이라 한다.멀티미디어에 대한 트랜스코딩 과정은 크게 대체(substitu- tion), 변환(translation), 요약(summarization), 추출(extraction)의 4가지 변형으로 구분할 수 있다.- 대체 : 원 미디어와 변환 미디어 간의 변환 관계를 정의할 필요 없이 원 미디어를 다른 대상의 미디어로 교체하는 과정이다. 예를 들면 이미지나 동영상을 처리할 수 없는 단말기에는 이미지나 동영상을 잘 표현할 수 있는 텍스트로 대체하여 전달할 수 있다. 즉 전화기를 사용하는 사용자들에게는 이미지 등의 정보를 모두 음성으로 대체하여 전달한다.- 변환 : 한 미디어 형태에서 다른 형태의 미디어로 변환됨을 의미한다. 예로 텍스트를 음성으로 변화 처리하는 TTS (Text-To-Speech), 음성을 텍스트로 변환하는 음성인식 및 비디오를 이미지로 변환하는 모자익(mosaicking : video-to-image) 등을 나타낸다.- 요약 : 단말기가 계산 능력 및 배터리 수명 등에 대한 제약으로 풍부한 멀티미디어 데이터를 처리하기 어려운 경우에 원 멀티미디어 데이터를 축약된 버전으로 전달하는 것을 의미한다. 포맷, 해상도, 크기 축소, 프레임 건너뛰기 등을 포함한다.- 추출 : 비디오로부터 대표 프레임이나 자막 추출, 이미지로부터 이미지 내에 있는 텍스트나 자막 추출, 텍스트로부터 주용 단어와 문장을 추출하는 과정이 해당된다.멀티미디어 SoC 개발멀티미디어 SoC(System on Chip)란 동영상·정지화상의 비디오와 오디오의 녹화 및 재생, 각종 애플리케이션 구동 및 그래픽 가속기능 등을 갖춘 제품으로, PC로 바꿔 말하면 CPU/사운드카드/그래픽카드/가속기 기능 등을 칩 하나에 집적했다고 보면 된다.그동안 시장이 형성되지 못했던 모바일 멀티미디어 단말기에 마이크로소프트와 같은 대형 업체가 뛰어들면서 전용 SoC가 함께 부각될 가능성이 커질 것으로 예상된다. 또한, 휴대 이동단말의 경우 전력소모와 제품 크기를 줄이는 것이 관건이어서 멀티미디어 수행 기능을 한 칩에 집적한 제품이 내년부터 집중 부각될 것으로 예상된다.휴대기기의 멀티미디어 기능 지원이 가속화 되고 있는 가운데 국내 반도체 설계업체들이 내년도 시장을 겨냥, 멀티미디어전용 시스템온칩(SoC) 개발에 경쟁적으로 나서고 있다. 퀄컴이 모뎀 칩셋에 카메라 등 멀티미디어 기능을 대폭 추가하고 있고 휴대전화도 멀티미디어 기능을 강화하고 있다. 또한 TI나 히타치 등 기존 대형 업체들이 이미 멀티미디어 프로세서에서 상당히 강한 입지를 굳혔기 때문에 국내 업체들은 이들과 직접 맞붙을 것인지, 아니면 기존의 카메라 기능에 좀 더 초점을 맞춰 제품 특화에 나설 것인지는 각 업체의 전략적 선택이 될 것으로 예상된다.맺음말이 글에서는 이동통신용 멀티미디어 신호처리의 다양한 분야에 대해서 알아보았다. 앞으로 도래할 차세대 VoIP, 멀티미디어 스트리밍, 3G EV(Evolution) 시스템 및 4G 시스템에서는 더 좋은 품질의 음성 및 오디오 서비스는 물론이고 영상과 데이터를 포함한 다양한 형태의 멀티미디어 서비스를 요구할 것이다. 본 글에서 소개한 멀티미디어 신호처리 기술개발 동향과 국제 표준화 동향들이 업계에 도움이 되는 자료가 되리라 생각한다.
회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지