[테크월드=선연수 기자] 머신러닝 기술 도입을 검토하는 기업들이 점점 늘어나고 있으며, 채택되는 분야도 계속 확대되고 있다. 맥킨지(McKinsey)의 조사에 의하면, 실제로 39%의 기업이 일부 머신러닝 방식을 비즈니스에 이미 구현하고 있는 것으로 나타났다. 이런 변화는 아직은 초기 단계이나, 무엇보다도 효율 향상, 고객 행동 예측, 통찰력 있는 비즈니스 인텔리전스 구현 등의 측면에서 기업들에게 매력적인 기술임이 분명하다.

 

프로 AV(전문가용 Audio/Visual)와 방송 시장도 예외는 아니다. 이미 이 분야에서 머신러닝은 비용절감은 물론, 새로운 이용 모델과 수익 흐름을 촉진하고 있다. 이번 글에서는 프로 AV와 방송 기업들의 머신러닝 활용 사례에 대해 알아본다.

 

ROI 인코딩

대용량 비디오 파일과 UHD 콘텐츠를 위한 스트리밍, 스토리지 비용은 급속하게 늘어날 수 있다. ROI(Region-of-Interest) 인코딩은 콘텐츠 전체의 비트 전송률을 줄이고, 시선을 사로잡는 사람이나 얼굴과 같은 영역은 최상의 비디오 품질을 자연스럽게 적용한다. 배경처럼 중요도가 상대적으로 낮은 영역은 비디오 품질을 줄여 비용 문제를 해결할 수 있다.

일반적인 시청 환경에서 인지되는 비디오 품질은 전반적으로 우수하지만, 인코더의 출력 비트 전송률을 낮출 수 있는 것이다. 예를 들어 5Mbps에서 1.5Mbps까지 줄인다면[그림 1], 이는 비트 전송률이 70% 감소하는 것으로 스트리밍 비용을 70% 절감하는 것과 같다. 일반 스트리밍 환경에서 콘텐츠를 이용하는 사용자가 1만 명이라면, 시청자는 시간 당 700달러를 절감하는 것이다[표 1].

미디어 스토리지 비용도 마찬가지다. 클라우드에 2TB에 달하는 처리량이 높은 드라이브가 제공될 경우 월 1000달러 이상의 비용이 들 수 있다. 여기에 ROI를 사용해 인코더의 출력 비트 전송률을 70%까지 줄이면, 더 작고 저렴한 드라이브를 제공할 수 있고 하나의 드라이브에 더 많은 영상 콘텐츠를 저장할 수도 있다[표 1].

 

[표 1] ROI 인코딩 활용 시 효율 계산

제어실 애플리케이션에서 가장 중요한 영역의 세부 정보를 보존하는 데 사용할 수도 있다. 예로, 시스템 사고를 대형 비디오 월에서 모니터링하는 경우, 후속 조사 과정에서 세부사항을 정확하게 식별하고 실수로부터 교훈을 얻고 실행 계획을 개선하는 트레이닝에 사용될 수 있도록 하는 것이 중요하다. 이는 ROI 인코딩에 고정 좌표를 사용하는 텍스트 오버레이(예를 들어 시계) 영역이나, 동적·머신러닝 기반 좌표를 이용하는 사람, 또는 얼굴 부분에 높은 수준의 비디오 품질을 유지함으로써 처리할 수 있다.

 

[그림 1] ROI 인코딩을 통해 비트 전송률과 비용을 절감하면서도 비디오 품질을 높일 수 있다.

 

지능형 디지털 사이니지

마케터들에게는 타깃율이 높은 광고가 그 무엇보다도 중요하다. 다양한 머신러닝 모델을 활용해 디지털 사이니지 앞에 서있는 사람들을 분석하고, 연령·성별과 같은 측정 항목에 기반해 관련성을 한층 더 높인 타깃 광고를 게재할 수 있다. 이로 인해 디지털 사이니지 공급업체는 늘어난 광고 노출 효과로 더 높은 금액을 지불할 수 있는 광고주를 많이 유치할 수 있다. 시청자의 관심도와 같은 유의미한 데이터는 서비스 이용방식을 개선하고, 제품 제조 업체에게 수익이 창출되는 피드백을 제공할 수도 있다.

시청자에게는 관련성이 높고 맞춤 설정할 수 있는 광고를 제공할 수 있다는 장점이 있다. 비교적 관심도가 높은 상품이나 서비스를 제안 받아 전반적인 쇼핑 경험 수준을 높이는 것이다. 머신러닝 모델을 대화형 키오스크에 적용함으로써 터치 스크린을 제스처 제어로 대체해 광고 이동과 주문을 제스처로 처리할 수도 있다. 언론에서는 이미 패스트푸드 매장에서 사용되는 터치 스크린 방식의 주문이 갖는 위생 문제에 대해 지적하고 있다. 이를 고려해 신체적 접촉이 없는 제스처를 통해 훨씬 위생적인 고객 환경을 구현할 수 있는 것이다.

 

객체 추적과 윈도잉

머신러닝 기반 얼굴인식 기술은 또 다른 방식으로 활용될 수 있다. 지역 대학교에서 개최되는 예술 작품에 대한 패널 토론을 실시간 스트리밍하는 상황을 가정해보자. 시청자가 한정된 저예산의 행사이기에 제작 비용이 낮아야 한다. 따라서 확대·축소, 상하좌우 이동으로 모든 토론자를 캡처할 수 있는 카메라 1대만이 사용될 것이다.

이때 머신러닝을 사용하면, 고정된 4K 카메라로 토론자 모두를 캡처할 수 있고, 진행되는 대화에 따라 토론자를 추적해 토론자의 주변은 낮은 해상도의 HD 창을 자동 출력·생성할 수 있게 된다. 즉, 한 대의 4K 카메라로 광각, 클로즈업 화면 3개, 총 4개의 출력 샷을 실시간 스트리밍 도중에 처리할 수 있는 것이다. 시각적 흥미를 유발할 요소가 충분하기 때문에 카메라 장비를 추가적으로 설치할 필요가 없고, 촬영기사는 비디오 믹싱을 직접 처리하고 스트리밍 프레임을 간단하게 선택할 수 있다.

이런 방식으로 스포츠 중계 등의 전문 방송 애플리케이션이나 여러 명이 참여하는 화상회의 참가자들을 자동 추적하는 협업 환경에도 머신러닝 추적 모델을 적용할 수 있다.

 

음성 인식

머신러닝은 자연어 처리(NPL, Natural Language Processing) 모델을 이용한 음성 인식에도 활용할 수 있다. 이미 스마트 기기에서 알렉사(Alexa), 구글 어시스턴트 등은 명령에 응답하고, 정보와 미디어를 제공하고, 주택 제어를 지원하고 있다. 기기에 내장된 NLP는 전문 미디어 분야에도 활용할 수 있다. 이는 클라우드에 연결하지 않고도 장비 설정을 빠르고 간단히 해결할 수 있으며, 동일한 작업을 수행하기 위해 서비스에 별도로 가입할 필요가 없다.

음성-텍스트 변환 알고리즘과 요약 모델을 사용해 회의 내용을 자동으로 기록할 수도 있다. 거의 모든 언어로 실시간 자막과 같이 번역할 수 있고 영상 회의, 방송, 영화 등의 자막처리 시스템에도 적용할 수 있다.

 

AI 엣지 프로세싱을 위한 플랫폼

[그림 2] 자일링스 징크 울트라스케일+ MPSoC

자일링스는 AI 엣지 프로세싱을 지원하는 고집적 징크 울트라스케일+(Zynq UltraScale+) MPSoC 플랫폼을 제공하고 있다[그림 2]. 네트워크와의 연결 없이 엣지에서 프로세싱을 직접 수행할 수 있어, 지연시간이 짧고 성능이 우수하다. 이는 클라우드의 개인정보보호나 신원 확인 등과 관련된 문제에서 비교적 자유롭게 해준다. 머신러닝 기능을 자일링스의 적응형 플랫폼에 통함함으로써 기업의 수익 창출을 위한 분석, 효율적인 작업 플로우 개선, 이용량 향상 등을 이룰 수 있다. 궁극적으로 통합 머신러닝 기능은 기업의 혁신 강화, 차별화된 비즈니스 모델 구축, 제품의 시장 출시 시간 단축을 돕는다.

 

글: 롭 그린(Rob Green) 자일링스 프로 AV·방송부문 수석 매니저

자료제공: 자일링스

 

- 이 글은 테크월드가 발행하는 월간 <EPNC 電子部品> 2020년 5월 호에 게재된 기사입니다.

이 기사를 공유합니다
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지
이 기사와 관련된 기사