기술 혁명을 이끌 차세대 AI 칩 프로세서

GPU, ASIC, FPGA 그리고 NPU까지

[테크월드=선연수 기자] 인공지능(AI)은 음성비서, 스마트 스피커부터 앞으로의 자율주행까지 차세대 기술의 핵심을 담당하고 있다. 빅데이터를 분석해 결과를 도출해 내는 AI는 그만큼 엄청난 연산을 빠르게 처리할 수 있는 고도화된 프로세서를 요구한다. 반도체 기업 여부를 막론하고 여러 기업들이 AI 프로세서 개발에 뛰어들고 있으며, 이는 우리가 AI와 함께하는 생활에 가까워지고 있다는 의미다.

초기 자율 주행을 이끌어갈 필수적 선택, GPU

엔비디아는 AI 연산을 위한 GPU를 꾸준히 새롭게 개발해오고 있다. 엔비디아 드라이브 AGX 페가수스(NVIDIA DRIVE AGX Pegasus)는 엔비디아 튜링(Turing) GPU에 기반한 플랫폼이다. 이는 엔비디아 NVLINK를 통해 자비에 SoC(Xavier SoC)에 130Tops가 연결되며, 메모리 대역폭은 자비에 250 GB/s, 튜링 discrete GPU 750 GB/s으로 총 1 TB/s를 지원한다. 자비에 SoC는 Arm의 v8ISA에 기반한 8코어 카멜(Carmel) CPU로서, 딥러닝 가속기(DLA, Deep Learning Accelerators)는 초당 30조 번의 연산을 처리하고, 90억 개의 트랜지스터를 사용해 빅데이터 분석의 실시간 처리 성능을 향상시킨다.

이 GPU 기반 플랫폼은 로봇택시, 즉 레벨5 자율주행을 위해 제작됐다. 이는 언덕이나 도로가 구불구불한 경우에도 주변 차량을 감지하고 차선을 유지하도록 도움으로써 기존 레벨2 ADAS 시스템의 한계를 뛰어넘는다. 현재 엔비디아는 자동차 제조, 트럭 제조, 타이어, 센서, 모빌리티, 소프트웨어 등 여러 분야에서 370개 이상의 협력사들과 함께 제품을 개발 중에 있으며, 최근 볼보의 AI 운송 산업 프로젝트에 함께하기로 했다. 볼보는 대중 교통, 화물 수송, 쓰레기와 재활용 수거, 건설 등에 엔비디아의 드라이브 AGX 페가수스를 적용해, 더 멀리 운송하면서도 비용 효율적인 시스템을 구축할 것이라고 밝혔다. 자율주행 트럭은 사람과 달리 24시간 운전할 수 있으며, 맥킨지에 따르면 미국은 물류비용으로 연간 1250억 달러를 사용하며, 엔비디아의 GPU 시스템 도입을 통한 자율주행으로 45%를 절감한 850억 달러까지 비용을 절감할 수 있다고 설명했다.

실제로 2017년 엔비디아가 투자, 연구에 참여한 중국의 장거리 화물 운송 기술 개발 기업 TuSimple은 올해 엔비디아의 GPU, 카메라 기술을 활용해 200마일에 걸친 4단계 자율주행 검증을 완료했다. 지난 5월 31일 미국 우정국(USPS)은 TuSimple이 우편물 자율주행 배달 테스트 또한 성공적으로 해냈다고 밝혔다. 애리조나 주 피닉스와 텍사스 주 달라스에서 2주간 우편물 배달을 진행했으며, 안전 기술자와 운전사가 함께 탑승해 22시간가량 1000마일을 자율주행 시스템으로 달렸다. TuSimple의 공공·정부 업무 책임자 로버트 브라운(Robert Brown)은 해당 지역의 도로가 곧고 날씨가 좋아 더욱 성공적인 테스트를 진행할 수 있었다고 설명했다. 그러나 차량 대체 문제에 있어 막대한 초기 자본이 들기 때문에, 미국 우정국은 향후 시스템 활용 여부에 대해서는 장담하지 못했다.

최적화된 IoT 실현을 위한 ASIC

2015년 구글은 머신러닝 기술을 실행하고 텐서플로를 구동할 전용 프로세서인 클라우드 TPU(Tensor Processing Unit) v1을 발표했다. 이는 구글 검색, 번역, 이미지 검색에 주로 사용되는 것에 그쳤으나, 지난 2018년 기존의 학습 기능에 추론 기능까지 수행하는 클라우드 TPU v3를 발표했다. 이는 ASIC(Application-Specific Integrated Circuits) 프로세스이며, 행렬 연산 방식으로 설계됐다. 예를 들어 사진을 분석하면, 픽셀 단위로 데이터를 행렬화 해 수천 개의 연산기로 분석해낸다. 이후 메모리의 데이터를 가져와 연산기로 각 데이터들을 동시에 비교·분석한다. 이때 별도의 메모리를 필요로 하지 않아 전력이 절감되고, 개발 시 풋프린트 또한 줄일 수 있다.

작년 7월 구글은 클라우드 TPU와 함께 에지 TPU(Edge TPU)를 공개했다. 이는 동전 하나에 칩 4개를 올릴 수 있는 크기로, IoT 에지 상에서 텐서플로의 머신러닝 작업을 지원하는 ASIC 프로세서다. 클라우드의 중앙 시스템에서만 처리하던 AI 연산을 IoT 에지 기기로 분산해 작업함으로써 연산 속도를 높이고 서비스 지연시간을 단축할 수 있다.

[그림 3] 에이수스의 Tinker Edge T 출처: ASUS, CNX SOFTWARE

에이수스(Asus)는 컴퓨텍스 2019에서 구글의 에지 TPU를 AI 가속기로 채택한 미니 PC PN60T와 학생과 개인 개발자들의 연구를 위한 단일 보드 컴퓨터 Tinker Edge T, 보안 등을 위한 단일 보드 CR1S-CM-A를 선보였다. Tinker Edge T는 1GB LPDDR4 RAM의 시스템 메모리, 8GB eMMC 플래시 스토리지를 탑재했으며, NXP i.MX 8M 쿼드코어 Arm Cortex-A53 프로세서에 기반한 제품이다. 이 제품은 스마트홈 장치, 카메라, 게임 에뮬레이터와 같은 애플리케이션에 적용될 것을 목표로 개발됐다. CR1S-CM-A는 Rochchip RK3399Pro hexa-core big.LITTLE 프로세서로 구현되며, 4GB 듀얼 채널 LPDDR4 시스템과 NPU를 위해 2GB LPDDR3 메모리, 16GB eMMC 플래시 스토리지가 사용된다. 이는 AI 전력 비즈니스 인텔리전스, 키오스크(Kiosk), 사이니지(Signage), 보안 솔루션에 활용될 수 있다.

FPGA로 펼쳐나가는 AI 데이터센터의 기반

현재 FPGA(Field Programmable Gate Array) 시장에서 절반이 넘는 점유율을 보이고 있는 자일링스는 작년부터 가속 컴퓨팅 시장에 대한 목표를 확고히 다지며, TSMC의 7nm 제조공정 기술로 제조되는 FPGA에 기반한 통합 플랫폼 ACAP 버샬(Versal)을 공개했다. 기존에도 자일링스는 구글, 마이크로소프트, 아마존 등 대형 서비스 업체들을 대상으로 하이퍼스케일의 데이터센터 지원을 목적으로 개발해왔다.

[그림 4] 자일링스는 FPGA에 기반한 통합 플랫폼 ACAP 버샬(Versal)을 공개했다. 출처: 자일링스

자일링스는 2017년부터 알리바바와 협업해오고 있다. 알리바바가 운영하는 온라인 쇼핑몰 알리바바 닷컴은 1일 접속 회원 수만 1억 명이 넘는다. 알리바바는 자일링스의 FPGA를 활용해 고객과 상품을 관리할 데이터센터를 구축했으며, 이 단계에서 TCO를 40%까지 향상시켰다고 밝혔다. 이때 사용된 자일링스의 FPGA인 X-Engine은 매일 온라인 트랜잭션 처리(OLTP, Online transaction processing) 데이터베이스 시스템에 기록되는 수십억 개의 기록을 처리해야 한다. 이 방대한 데이터를 빠르게 압축, 축적해야 하는데 작업이 빠르게 이뤄지지 않으면 데이터를 읽어내는 데 과부하가 걸릴 수 있다.

알리바바는 이 작업에 기존에 사용하던 CPU를 대신해 자일링스의 FPGA 시스템을 도입한 것이다. X-Engine은 기존 CPU의 10배에 달하는 처리 성능을 보였으며, 밀리초 단위의 데이터 압축 링크 요청으로 비동기 처리 과정(Asynchronous Scheduling)을 통해 스레드 변환 비용을 절감해낸다. 또한, FPGA의 롤백(Rollback) 상황을 방지하기 위해 CPU를 압축 스레드로 재실행 시킴으로써 데이터의 안정성을 확보했다.

차세대 AI 엔진 NPU

NPU(Neural Processing Unit)는 사용자의 명령에 대한 결과뿐만 아니라 자발적으로 데이터를 분석한 뒤 결과 값을 도출해 낸다. 이는 AI 추론에 특화된 제품으로 아주 작은 크기, 낮은 전력만으로도 빠른 속도로 구동할 수 있으며, 따라 크기가 작은 모바일 기기나 최대한 작은 공간을 요구하는 자율주행차에 적합한 기술이다.

국내는 지난 2017년 9월 네패스가 576개의 인공 뉴런이 탑재된 뉴로모픽(Neuromorphic) 칩 NM500를 상용화한 바 있다. 당시 자율주행 자동차, 무인기, 지능형 로봇, 스마트 팩토리 등 산업 분야에 도입될 차세대 기술로 주목받기도 했다.

지난 2018년 화웨이가 메이트 20 시리즈와 뷰 20에 탑재한 NPU 기린(Kirin) 980은 TSMC의 7nm 공정 기반의 모바일 AP다. 이는 1cm2의 다이에 69억 개의 트랜지스터를 탑재했으며, 기존 10nm 공정 대비 SoC 성능 20%, 전력 효율은 40% 개선된 기술을 선보였다. Cortex-A76 코어를 내장했으며, 지능형 플렉스 스케줄링(Flex-scheduling) 방식을 통해 에너지 효율을 높였다. 사용자는 기린 980이 내장된 스마트폰을 활용해 색다른 촬영 모드를 이용할 수 있다. 영상 속 배경으로부터 인물을 분리해내고, 3D 스캔 기능을 지원하는 모습을 선보이기도 했다.

화웨이의 인터넷 브랜드 아너(HONOR)는 스마트폰 매직 2와 AI 음성비서 요요(YOYO)를 활용해 AI 대리운전 기능을 공개했다. 이는 화웨이의 기린 980의 연산 능력을 활용한 기술로, 차량 후면에 장착된 3대의 초광각카메라를 통해 시야를 확보해 요요에게 시작 데이터를 전달하고, 요요가 이를 분석해 운전하는 방식이다. 모바일 기기를 넘어, 자율 주행 연산까지 수행할 수 있는 모습을 보여준 화웨이는 지난 6월 21일 새로운 NPU인 기린 810을 공개했다.

AI 칩 시장은 이제 시작, 국내 기업은 어디쯤?

각 국의 반도체 기업들은 AI로의 흐름에 탑승하기 위해 주전력 제품을 통해 계속해서 새로운 AI 칩을 선보이고 있다. 그러나 국내는 지난 6월 20일 삼성 전자의 NPU 독자 개발 선포에서 알 수 있듯 아직 이렇다 할 결과를 내지 못하고 있는 상황이다. LG전자는 지난 5월 로봇 청소기, 세탁기, 냉장고, 에어컨 등 가전제품에 독자 개발한 AI 칩을 적용, 출시할 계획을 밝혔다. 그러나 아직 늦지 않았다. 메모리 반도체의 위기를 겪고, 차세대 기술을 대비해야 하는 현시점에서 AI 칩 시장이 발돋움하는 이 시기를 놓치지 않고 뛰어들어 새 시대의 파도에 함께해야만 한다.

회원가입 후 이용바랍니다.