인공지능 데이터센터, 에너지 효율 높이는 ‘FPGA와 ASIC’ 각광 ③

열 발생률 감소, 데이터센터 안전성과 운영 비용 감소 효과로 이어져

[테크월드=이나리 기자] 인공지능에서 빠른 연산처리도 중요하지만, 에너지 효율성도 매우 중요하다. 최근 다양한 애플리케이션을 통해 발생되는 데이터의 수가 기하급수 적으로 늘어나면서 이를 보관하는 데이터센터 내 서버의 수 또한 급증하고 있다.

수많은 서버가 24시간 돌아가고 있는 데이터센터는 많은 열을 발생시키기 때문에 데이터센터를 적절하게 냉각시키는 것은 데이터센터의 안정성을 보장하는 중요한 요소다. 또 데이터센터 냉각에 필요한 에너지는 데이터센터에서 사용되는 에너지 대부분을 차지하기 때문에 데이터센터 열 발생률을 감소시키면 덩달아 운영 비용을 절감할 수 있다. 이런 이유로 데이터센터를 운영하고 있는 여러 글로벌 기업들은 에너지를 절감시키기 위한 방법으로 주문형 반도체를 선호하면서, 자체 반도체 개발에 나서기 시작했다.

프로그래밍과 재설정이 가능한 비메모리 반도체의 일종인 FPGA(Field-Programmable Gate Arrays) 역시 높은 유연성 때문에 대용량 데이터 처리에 적합하다. 이런 이유로 데이터센터 프로세서에 FPGA를 같이 쓰면 전력 감소에 많은 도움을 준다. 또 FPGA가 부상하는 이유 중 하나는 범용 프로세서의 성능 향상이 한계에 달했기 때문이다.

FPGA는 CPU가 감당하지 못하는 더 많은 서비스를 제공할 수 있고, CPU와 병렬로 작동하므로 전체 시스템의 혼란이나 병목현상 없이 추가적인 컴퓨팅 파워로 사용할 수 있기 때문에 최근 새로운 기술로 주목 받고 있다. 재프로그래밍이 가능한 FPGA는 칩을 번역 작업에 최적화해 사용하다가 칩 회로 구성을 다시 설정해 가상비서 서비스에 맞춰 쓸 수 있다.

따라서 FPGA는 인텔이나 AMD가 만드는 범용 프로세서와 특정 장비 전용으로 개발하는 주문형 반도체인 ASIC(Application-Specific Integrated Circuits)의 특성을 합쳤다는 평가를 받는다. 또 FPGA는 특정 함수에 맞춘 하드웨어 프로그래밍이 가능해 신경망 모델 출력 값을 빠르게 계산하는 인공지능 추론 서비스 구현에 적합하다. 이처럼 FPGA는 ASIC보다 초기 개발 비용이 저렴하고, 원하는 작업을 더 빠르게 처리할 수 있다는 것이 장점이다. 반면 단점으로는 일반적으로 ASIC보다 느리고 복잡한 설계에 적용할 수 없다고 여겨진다.

시장조사업체 마켓앤드마켓이 발표한 ‘2022년 FPGA 시장 예측’ 보고서에 따르면 2014년 FPGA 시장규모는 2016년부터 2022년 사이에 연평균 7.41%의 성장률을 보이며 2022년에는 시장규모가 72억 달러에 이를 것으로 분석됐다. 이는 같은 기간 전체 IC 시장의 연평균 성장률이 5.1%인 것과 비교했을 때 높은 성장세에 있다는 것을 알 수 있다.

주문형 반도체인 ASIC(Application-Specific Integrated Circuits) 또한 빠른 속도와 높은 에너지 효율의 특성을 지니고 있어 인공지능 전용 칩으로 각광받고 있다. ASIC는 특정 용도에 특화해 설계됐고 집적회로 구성이 최적화돼 있어, FPGA나 GPU에 비해 적은 공간을 차지하면서 더 좋은 성능과 낮은 전력 효율을 함께 제공할 수 있다는 것이 장점이다. 반면, 큰 초기 개발비를 지불해야 한다는 것은 단점으로 꼽힌다.

데이터센터는 에너지를 절감시키기 위한 방법으로 FPGA와 주문형 반도체를 선호한다.

◇ 자일링스, 데이터센터 활용도 높은 FPGA의 선두업체

자일링스는 FPGA 시장에서 약 56% 점유율을 보유하며 1위를 달리고 있으며, 2011년 ‘프로그래머블’에 머물러 있던 FPGA 업계에 ‘올 프로그래머블’이란 개념을 도입했다. 기존 FPGA가 하드웨어 기능을 구현(Hardware Description Language, HDL)하는 RTL(Register Transfer Level) 툴 만을 제공했다면, 올 프로그래머블은 C 언어로 소프트웨어를 개발하고 적용까지 가능한 새로운 개념이었다.

2016년 11월 자일링스는 본격적으로 하이퍼스케일 규모의 데이터센터 시장에 집중할 계획을 공식 발표했다. 하이퍼스케일 데이터센터는 전체 서버 시장에서 차지하는 비중은 낮지만 구글, 마이크로소프트, 아마존 등 대형 인터넷 서비스 업체들이 대량으로 도입하면서 최근 급성장하고 있다.

자일링스가 하이퍼스케일 데이터센터를 위해 출시한 재구성 가능한 가속 스택(Reconfigurable Acceleration Stack) ‘reVISION’은 개발자보드와 FPGA, 프레임워크, 라이브러리, 오픈스택 등이 포함돼 있는 것이 특징이며, 동적 재구성을 사용해 머신 러닝, 데이터 분석, 비디오 트랜스코딩과 같이 성능에 대한 요구가 많은 작업량에 실리콘 최적화할 수 있다. 자일링스 측에 따르면 자일링스 FPGA는 한정된 정밀 데이터 타입에 대한 디지털시그널프로세서(DSP) 아키텍처와 풍부한 온-칩 메모리 자원하기 때문에 데이터센터 머신 러닝 추론에서 경쟁사 대비 2~6배의 컴퓨팅 효율을 달성한다고 설명했다.

현재 여러 글로벌 데이터센터에서는 자일링스의 울트라스케일+ FPGA를 채택해 사용하고 있다. 대표적으로 중국에서 수만 개의 서버를 운영하고 있는 바이두는 일반적인 검색부터 이미지 검색, 그리고 각종 음성 인식 알고리즘에 쓰이는 뉴럴 네트워크를 가속하는데 자일링스의 FPGA를 사용하고 있다. 또 바이두는 1U나 2U 서버에 탑재될 수 있는 자일링스 K7 480t-2l FPGA 보드 기반의 메인보드를 사용함으로써 다양한 워크로드를 처리하는데 있어 FPGA 보드가 CPU나 GPU보다 몇 배나 더 효율적이라는 사실을 발견했다고 발표했다.

아마존은 EC2(Amazon Elastic Compute Cloud) F1 인스턴스에 자일링스 FPGA를 활용하고 있으며, F1 인스턴스와 아마존웹서비스(AWS)에 자일링스의 소프트웨어 정의 개발 환경인 SDAccel을 사용하고 있다. SDAccel은 아마존 EC2 F1을 위한 애플리케이션 전용 FPGA 커널을 구축함으로써, C, C++ 또는 OpenCL로 작성된 소프트웨어 애플리케이션 가속화를 자동화한다. 이로써 FPGA에 익숙지 않은 소프트웨어 개발자도 최대 50배까지 작업 효율성을 높일 수 있게 됐다는 것이 자일링스의 설명이다.

2017년 9월 화웨이는 가속화 클라우드 서비스의 일부로 첫 번째 FP1 인스턴스를 구동하기 위해 자일링스의 고성능 버텍스 울트라스케일+(Virtex UltraScale+) FPGA를 채택했다. 알리바바 또한 2017년 10월 클라우드 서비스 F2 인스턴스에 자일링스의 FPGA를 사용함으로써 CPU 기반 아키텍처를 보완하고 서버의 CPU 성능과 전력 효율성을 높이게 됐다고 밝혔다. 이와 관련해 진 리(Jin Li) 알리바바 클라우드 부사장은 “FPGA는 데이터센터 작업의 진화하는 컴퓨팅 수요를 충족하는 범용 병렬 가속기”라며 “알리바바 클라우드는 최근 ‘F2’ 인스턴스의 프로세싱 효율이 CPU 단독일 경우보다 30배 이상 높아졌다”고 설명했다.

그 밖에 퀄컴과 IBM도 데이터센터 가속을 위해 자일링스와 전략적으로 협력한다고 발표했다.

◇ 인텔, FPGA와 CPU 기술 통합 전략으로 가속기 시장 대응

그동안 인텔은 인공지능 포트폴리오에 ASIC나 FPGA 제조 보다는 자사의 CPU 프로세서를 더욱 강력하게 만드는 전략만을 취해왔었다. 그러나 인텔은 인공지능 특화 기술을 확보하기 위한 전략으로 2015년 FPGA를 제조하는 알테라(Altera)를 167억 달러(19조 2000억 원)에 인수했고, 2016년 8월에는 소프트웨어에서부터 칩에 이르기까지 특수 인공지능 시스템을 개발하는 너바나(Nervana)를 3억 5000만 달러(약 4000억 원)에 인수했다.

또 같은 해 인텔은 인공지능 시스템 공급 업체인 사프론(Saffron)을 인수했고, 연이어 컴퓨터 비전 프로세싱 SoC 업체 모비디우스(Movidius)를 인수하면서 소형기기에서, IoT, 제조, 금융, 리테일 등의 여러 분야에 인공지능을 접목시키겠다는 의지를 내비쳤다. 인텔의 이 같은 행보는 엔비디아와 경쟁구도에서 뒤쳐지지 않으려는 움직임으로 보여진다. 또 엔비디아와 마찬가지로 자율주행차 시장에 주목하고 2017년 3월 이스라엘 자율주행차 카메라 제조 업체인 모빌아이(Mobileeye)를 153억 달러(약 17조 1500억 원)에 인수하며 시장 주도권 확보에 주력하고 있다.

인텔은 알테라 인수 후에 FPGA에 적극적인 개발에 돌입했다. 2016년 8월 인텔 개발자 포럼(Intel Developer Forum, IDF)에 참석한 브라이언 크르자니크(Brian Krzanich) 인텔 CEO는 인텔의 성장 전략에 있어 FPGA가 핵심적인 부분을 차지하고 있다는 사실을 분명히 했다. 이와 관련해 알테라에서 인텔로 브랜드 이전을 상징하는 FPGA '스트라틱스(Stratix) 10'을 공개했다. 스트라틱스 10은 14나노(nm) 트라이게이트(Tri-Gate) 공정에 기반하고, 고대역폭메모리2(HBM2)를 탑재하고 최대 메모리 대역폭 512GB/s를 달성했다. 이 제품은 고성능컴퓨팅, 데이터센터, 네트워크기능가상화(NFV) 등 고성능을 요하는 분야에 주로 적용될 것이다.

일례로 2017년 마이크로소프트는 FPGA 기반의 인공지능 인프라를 자사 애저(Azure) 클라우드를 통해 서비스하기 위한 ‘브레인웨이브(Brainwave)’ 프로젝트를 발표했고, 하드웨어 가속기로 인텔의 스트라틱스 10 FPGA를 선택했다. 브레인웨이브는 FPGA를 기반으로 심층신경망 엔진을 구동하는 하드웨어와 고성능 분산시스템 아키텍처, 학습된 AI 모델을 배포하기 위한 컴파일러와 런타임 3가지로 구성되는 인공지능 플랫폼이다.

레인웨이브는 FPGA를 탑재함으로써 단일 요청으로 39 테라플롭 이상의 성능을 달성했으며 실시간 인공지능 계산을 클라우드에서 처리할 수 있다. 현재 마이크로소프트는 분산형 설계로 만든 자사의 데이터센터 내 서버에 FPGA를 순차적으로 통합하고 있는데, 2017년 기준 15개 국가의 서버 장비에 수 만개의 FPGA를 설치했다고 밝혔다.

또 인텔은 기계학습과 심층학습용 인공지능 전용 프로세서 브랜드를 ‘인텔 너바나(Nervana)’로 정하고, 다양한 마케팅 활동과 제품 출시를 전개하고 있다. 그 1탄으로 인텔은 2016년 하반기 개최된 인텔 AI 데이즈에서 업계 최초의 인공지능 전용 프로세서인 ‘레이크 크레스트(개발코드네임)’를 출시할 예정이라고 알렸고, 2017년 10월 레이크 크레스트로 알려진 너바나 NNP(Neural Network Processor, 신경망 프로세서)를 공식으로 공개했다. 너바나 프로세서는 한마디로 표현하자면, 심층학습용 액샐러레이터이며, 인공지능 학습이 요구하는 복잡한 연산 효율을 극대화하기 위해 기존 프로세서 제품과 다른 작동 구조를 채택한 것이 특징이다.

따라서 너바나 프로세서는 캐시 메모리가 없고 프로세서에서 직접 관리하는 고대역폭 메모리를 탑재했으며, 고속의 온/오프 인터커넥트 기술을 채택해 너바나 프로세서 여러 개를 병렬로 연결해 빠르게 데이터를 주고 받을 수 있다. 이로써 마치 하나의 거대한 프로세서처럼 작동할 수 있고, 인공지능 학습 성능을 극대화할 수 있다. 또한, 신경망 네트워크의 작업량을 효율적으로 처리할 수 있도록 플렉스포인트(Flexpoint)라는 새로운 숫자 형식을 도입했다. 이는 프로세서의 크기에 비해 더 많은 병렬 처리를 가능하게 하는 동시에 소모 전력을 줄여 작동 효율을 높일 수 있다.