[테크월드=선연수 기자] 

 

 

딥 러닝 인공지능(AI) 애플리케이션은 머신을 통해 인간의 창의력을 증대시킴으로써 새로운 차원의 생산성을 실현해내는 핵심 요소로 작용한다. 수 테라바이트의 트레이닝 데이터와 수십억 단위의 수학 연산은 각 신경망을 완벽하게 트레이닝할 수 있으며, 해당 작업에 며칠씩 소요되는 대규모 일괄 프로세싱 작업은 오프라인으로 수행할 수 있다. 반면, 트레이닝된 네트워크 구축은 더욱 엄격한 제약 조건을 따른다.

데이터센터는 업그레이드를 통해 AI 프로세싱을 통합하려 노력하고 있으나, 공간의 제약과 전력 소모의 문제가 발생한다. 또한, 즉각적인 반응을 원하는 고객을 위해 대기시간을 매우 짧게 만들어야 한다.

특히 생명과 결부된 자동차 애플리케이션의 운전자 지원 시스템이나 자율주행 차량에선 대기시간의 최소화와 실시간 응답의 신뢰성이 몹시 중요하다. 데이터센터에 비해 크기와 전력 소모가 더욱 제한적인 상황에서 가중치와 열 문제까지 고려돼야 하는 것이다. 테슬라(Tesla)는 최근 개최한 Autonomy Day 행사에서 GPU 대비 낮은 전력 소모(<100W)와 짧은 대기시간(하나의 일괄처리 크기)을 갖춘 자체 칩을 구현한다고 발표하기도 했다.

AI가 까다로운 질문에도 신속하게 응답할 수 있도록 더 많은 시나리오가 채택되면서, 신경망에 대한 성능 요구 사항은 갈수록 심화되고 있다.

 

효율적이고 미래지향적인 추론

자동차 분야의 임베디드 시나리오나 클라우드에 기반한 AI는 새로운 애플리케이션을 구동하는 추론 엔진이 작은 크기, 짧은 대기시간, 낮은 전력 소모의 조건을 충족해야 한다.

실제 환경에서도 추론을 성공적으로 수행하는 트레이닝 신경망을 위해, 적절한 프루닝(Pruning)과 최적화, 전력 소모, 크기, 열 풋프린트 등의 요소들에 대한 요구 조건을 충족할 수 있는 프로세싱 플랫폼을 신중하게 고려해야 한다. AI의 상업적 구현이 점점 더 늘어나고 고객들의 요구가 높아지면서, 프로세서 칩 공급업체들은 더욱 정교한 디바이스 아키텍처를 채택하고 있다.

자율주행과 같은 적용 분야를 겨냥한 최신 칩들 중 일부는 수학 연산을 위해 다수의 GPU, CPU, 애플리케이션 프로세서 코어를 통합한 하이브리드 아키텍처를 채택한다. 그러나 아키텍처는 칩 상에서 제공되는 리소스에도 불구하고 형태가 고정돼, 개발자들은 엄격한 메모리 인터페이스 폭과 데이터 분해능으로 작업해야 한다. 보통 8비트 정수 연산을 최소 단위로 사용하나, 실제 딥 러닝 알고리즘은 훨씬 낮은 2비트나 1비트 분해능 데이터로도 만족스럽게 작동한다. 유연하지 않은 CPU나 GPU 컴퓨팅 아키텍처는 신경망 성능 요구를 따라잡지 못하며, 최적의 컴퓨팅 성능과 전력 소모를 위해 분해능과 코어 수를 조정할 수 있는 유연한 아키텍처가 요구되는 상황이다.

트레이닝 신경망을 프루닝·최적화하고, 타깃 프로세서에 효율적으로 구현하는 것은 어렵지 않을 수 있다. 그러나 보다 효과적인 새로운 신경망에 대한 개발 속도가 실리콘의 발전 속도를 능가하고 있어, 최신 기술에 기반한 프로젝트를 진행하더라도 구축하기도 전에 이미 구식이 될 수 있다. 또한, 구축 당시 대부분의 최신 신경망 기술은 기존 프로세서 아키텍처에서 제대로 동작하지 않을 수 있다.

 

FPGA를 활용한 AI 가속기 구현

성능, 전력 소모, 향후 적응 가능성에 대한 문제를 극복하기 위해 연구진은 AI 가속기를 구현할 때 FPGA가 제공하는 유연성을 활용한다.

FPGA는 단일 비트 분해능의 수백 개 또는 수천 개의 고도로 병렬화된 컴퓨팅 유닛과, 병목현상을 제거할 수 있도록 조정된 메모리 인터페이스로 구성할 수 있다. 개발자는 간단한 재프로그래밍 기능으로 실리콘 세대 간 신경망 구조를 유연하게 업데이트할 수 있어, 기술 발전 속도에 맞춰 작업할 수 있다.

자일링스는 2017년 디파이 테크(DeePhi Tech)를 인수한 후, 첨단 프루닝·최적화 툴을 비롯해 FPGA에서 신경망을 구현할 수 있는 IP 개발에 많은 역량을 투입했다. 프루닝은 영향을 받지 않는 제로에 가까운 트레이닝 가중치를 제거하고, 각 작업을 완료하는데 필요한 전력 소모와 컴퓨팅 연산수를 최소화하도록 네트워크를 재구성함으로써 신경망을 간소화한다. 디파이 테크의 신경망 프루닝 기술은 FPGA에서 실행되도록 최적화돼, 최대 90%의 가중치를 제거하면서 이미지 인식 정확도를 충분한 수준으로 끌어올린다. 또한, 10배 빠른 성능을 제공하며, 에니저 효율도 향상시킨다.

 

클라우드에서 에지까지

자율주행은 짧은 컴퓨팅 대기시간, 최소한의 사이즈, 가중치와 전력에 대한 요구 사항이 얼마나 중요한지 쉽게 이해할 수 있는 적용 사례 중 하나다. 자율주행차에서 레이더나 카메라로 감지하는 다른 차량, 자전거, 보행자 등의 물체는 탐지된 후 순식간에 식별돼야 한다. 사람은 보통 4분의 1초 내에 시각적인 입력에 반응하며, 자율주행 시스템은 최소한 이 이상의 속도로 시각적 인식을 수행해야 한다. 즉, 시스템이 인간 운전자와 동등해지려면 전반적인 감지-인식-응답 프로세스에 대해 1.5초 이내에 비상 정지 결정을 내릴 수 있어야 한다.

자일링스는 최근 메르세데스 벤츠(Mercedes Benz) R&D 부문과 협력해 운전자 모니터링, 차량 가이드, 충돌 방지 등을 위해 카메라, 레이더, 라이다(LiDAR)의 데이터를 분석하는 고성능 FPGA 기반 딥 러닝 프로세서를 구현하는 중이라고 발표했다. 회사의 전문가들은 고도의 적응형 자동차 플랫폼에 AI 알고리즘을 구현하고, 메르세데스의 신경망 딥 러닝 프로세서 기술을 최적화할 예정이다. 이 기술은 매우 짧은 지연시간과 우수한 전력 효율을 제공해, 자동차 환경의 엄격한 열 제한조건 내에서 시스템을 안정적으로 작동시킬 수 있다.

 

 

데이터센터에서 FPGA는 일반적인 GPU 기반 프로세서로 달성할 수 있는 와트당 성능 수준을 뛰어넘는 딥 러닝 가속기를 구현할 수 있다. SK 텔레콤은 킨텍스(Kintex) 울트라스케일(UltraScale) FPGA를 데이터센터의 AI 가속기로 사용함으로써 음성 인식 장치인 누구(NUGU)의 성능을 향상시켰다. SK 텔레콤의 자동음성인식(ASR, Automatic Speech-Recognition) 애플리케이션을 기존 GPU 기반 프로세서 대비 500%까지 가속화할 수 있으며, 와트당 성능을 16배까지 향상시켰다. 여러 음성 채널을 처리하는 기존 CPU 전용 서버에 이 가속기를 추가함으로써 TCO(Total Cost of Ownership)를 크게 낮추기도 했다.

또 다른 예로, 최근 등장하는 AI 기반 홈 보안 시스템을 들 수 있다. 텐드 인사이트(Tend Insights)와 클라우드 플랫폼의 일부로 공동 개발한 FPGA 기반 저지연 추론은 스마트홈과 같은 혁신적인 서비스와 스마트한 감시 기능을 제공한다. 주택 곳곳에 설치된 카메라는 목표로 설정한 대상의 움직임이 포함된 프레임을 식별하고, 이를 클라우드의 FPGA 기반 AI 가속기에 업로드하는 기본 기능을 갖춘다. 가속기는 일련의 API(이 경우 자일링스의 ML 스위트(Machine Learning Suite) 하드웨어 컴파일러의 일부로 제공됨)를 통해 접속하며, 가족, 애완동물, 모르는 사람이나 동물을 구분해 위협이 감지되면 경보를 작동시킨다. 소유자의 허락 하에 집안 내부의 카메라 프레임을 분석해, 노인이 쓰러지거나 도움이 필요한 상황을 감지하고 지정된 가족 구성원이나 전문 간병인에게 전화를 거는 등의 방식으로 도움을 요청할 수 있다.

이외에도 복잡한 패턴 매칭과 이미지 인식을 통한 결과의 빠른 전송을 위해, 다양한 시나리오에 AI가 활용된다. 의학적 진단·치료를 가속화하기 위한 게놈 분석이 그 일례다. 이미 AI 추론을 가속화하기 위해 FPGA를 사용해 환자의 게놈을 시퀀싱하고, 인과관계 변칙을 식별하는 시간을 24시간에서 약 30분으로 단축했으며 시간을 단축하기 위한 노력이 계속되고 있다.

원자력 연구 분야에서도 AI를 유용하게 사용하고 있다. 핵융합 실험에는 프레임당 1억 픽셀이 넘는 고화질 이미지들이 수집되며, 이를 약 25ms 이내에 처리해야 한다. 이는 매우 짧은 대기시간의 신경망 감지기를 요구하는 까다로운 영역으로, 기존 CPU 기반 추론으로는 어려운 작업이다. FPGA는 이와 같은 분야에서도 과학자들이 원하는 해답을 얻도록 지원하고 있다.

 

결론

AI는 최근에 이르러서야 실용적인 제안으로 떠올랐으며, 이미 사람들의 일상적인 상호 작용 서비스 구현에 다양하게 활용되고 있다. 운용 비용 절감, 고객 대기시간 단축, 새로운 신규 부가가치 서비스 창출 기회라는 측면에서 상업적 기업들에게 대단히 유의미한 일이며 대기시간, 전력 소모, 비용의 절감을 통한 지속적인 성능 개선의 압박도 가중되고 있다.

AI 개발엔 두 측면이 존재한다. 첫 번째는 과제에 가장 적합한 유형의 신경망을 트레이닝하는 것이고, 두 번째는 적절한 프로세서에 호스팅 된 추론 엔진처럼 구현되도록 이미 트레이닝된 네트워크를 프루닝·최적화하는 작업이다.

클라우드, 네트워크 또는 네트워크 에지에서 가속화된 AI 추론을 실현할 수 있는 세 가지 필수 요소로는 ▲실리콘 재개발 없이 최신 신경망 아키텍처를 구현할 수 있는 재구성 기능 ▲ML 스위트 하드웨어 컴파일러와 디파이테크의 최적화 툴처럼 구현과 최적화를 위한 고성능 툴 ▲유연한 고성능 FPGA 아키텍처가 있다.

글: 다니엘 이튼(Daniel Eaton) 전략 마케팅 개발 수석 매니저

자료제공: 자일링스

 

회원가입 후 이용바랍니다.
개의 댓글
0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400
내 댓글 모음
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지
이 기사와 관련된 기사