프로세서 안에 메모리를 배치한 '콜로서스 IPU' 개발해 주목받는 기업
그래프코어 강민우 한국지사장

[테크월드=김경한 기자] 그래프코어(Graphcore)는 지난 1월 초 반도체 업계에서 다소 생소한 개념을 들고 국내 시장에 입성했다. 지난 2월 4일에는 기자간담회 진행하며 대대적으로 국내 진출을 알렸음에도 그 이후에는 뚜렷한 활동이 눈에 띄지 않았다.

그래프코어 강민우 한국지사장

이에 대해 강민우 한국지사장은 “그래프코어는 제품에 대한 자신감을 가지고 마케팅 활동을 크게 하지 않고 있다”고 밝혔다. 영국 회사들이 대체로 마케팅보다는 스텝바이스텝(Step By Step)으로 한 단계씩 일처리를 해나가는 특징 때문이기도 하다. 강 지사장은 “그 대신 국내 대기업과의 사전 테스트 과정을 통해 검증을 진행하고 있으며, 올해 하반기쯤에는 소기의 성과를 달성할 수 있을 것으로 기대하고 있었다”고 전했다. 

그렇다면, 그래프코어의 이런 제품에 대한 자신감은 어디에서 오는 걸까? 그 열쇠는 그래프코어가 제작하는 콜로서스 IPU(colossus Intelligence Processing Unit, 이하 IPU)의 구조에서 확인할 수 있다. 

 

정확도와 처리속도, 두 마리 토끼 잡다

IPU의 구조를 이해하기 위해선 우선 CPU와 GPU의 구조를 알아야 한다. 대표적인 시스템 반도체인 CPU는 메모리가 따로 분리돼 있어, 칩당 메모리 대역폭이 140기가바이트에서 700기가바이트 정도를 유지한다. GPU는 칩 로직 옆에 HBM을 붙여놓았기 때문에 CPU보다는 빠른 로딩이 가능해, GPU는 칩당 대역폭이 4.5테라바이트를 유지한다. 이는 CPU보다 5~32배로 빠른 처리 속도를 나타낸다. 

콜러서스 IPU의 구조(자료 = https://www.graphcore.ai)

이와는 달리 IPU는 칩 안에 1216개의 프로세서가 들어있고 프로세서마다 개별적으로 메모리를 적재시켜 처리속도를 대폭 끌어올렸다. 단일 프로세서는 코어당 최대 100GFOLPS 이상으로 300MB의 메모리와 짝을 이뤄 최대 7000개 이상의 프로그램을 병렬로 실행할 수 있다. IPU의 칩당 대역폭은 45테라바이트다. 

강민우 지사장은 “이런 병렬 연산 덕분에 IPU는 인공지능 분야에서 탁월한 성능을 자랑한다”고 주장했다. 예를 들어, 프로세서가 p1, p2, p3,,,pn을 순차적으로 연산한다면, 맨 마지막의 pn을 연산하기 위한 파라미터(변수)는 p1이나 p2 등 이전 단계에서 결과값이 나올 때까지 기다려야 한다. 이러다 보니 지연이 발생할 수밖에 없다. 하지만 IPU는 프로세서 하나당 메모리 하나가 탑재돼 각각의 프로세서가 독립적으로 연산(병렬 연산) 처리할 수 있기 때문에 지연이 발생하지 않는다.

 

머신러닝에 최적화된 IPU

IPU가 인공지능 분야에서 탁월한 성능을 발휘하는 근거는 작은 배치 사이즈로 연산할 수 있는 점에서도 찾을 수 있다. 

인공지능의 정확도를 높이는 요소에는 크게 모델링의 변수와 배치 사이즈(Batch Size)가 있다. 먼저 모델링의 변수가 많아야 한다. 인공지능이 사진 상으로 고양이를 인식해야 한다고 하면, ▲귀의 형태 ▲수염 유무 ▲입의 구조 ▲털의 형태 등 고양이의 특성을 알 수 있는 변수를 많이 학습할수록 좋은 결과값을 얻을 수 있다. 따라서 변수값 면에서는 방대한 데이터를 확보하고 있는 구글와 GPT(오픈 AI)가 유리할 수밖에 없다. 하지만 이는 프로세서와 관련된 분야는 아니므로 두 번째 요소를 살펴보자.

두 번째 요소로는 작은 배치 사이즈를 처리할 수 있어야 한다. 배치 사이즈는 사전적(네이버사전)으로 다수의 공정으로 구성되는 생산라인에서 공정과 공정 사이에 한꺼번에 처리해 전달해야 하는 작업 뭉치의 크기로 정의할 수 있다. 즉 프로세서 측면에서 한꺼번에 처리해야 할 데이터의 크기라 할 수 있다. 

GPU에서 활용되는 HBM은 큰 사이즈의 한계 때문에 배치 사이즈를 벌크 단위로 크게 로딩시킬 수밖에 없다. 배치 사이즈가 크기 때문에 처리속도가 느릴 수 있는데, 엔비디아 측은 변수값을 임의로 지정해 놓음으로써 처리 속도를 향상시켰다. 대신 정확도는 일정 부분 손해를 봐야 했다. 

하지만 IPU는 칩 안에 1216개의 독립적인 프로세서와 이에 대응하는 메모리를 배치해 작은 배치 사이즈도 처리할 수 있게 됐다. 그 덕분에 머신러닝에서 추론의 정확도를 높일 수 있었다. 강민우 지사장은 “한 금융 업체는 MCMC(Markov chain Monte Carlo)를 가동할 때 GPU로는 정확성을 보장할 수 없었는데, IPU를 테스트해보고 만족할만한 결과를 얻었다며 기뻐하기도 했다”고 전했다. 실제로, 미국 시카고에 기반을 둔 헤지펀드사인 시타델은 IPU를 기반으로 모델링을 돌리고 있다. 

MCMC 확률론 학습 성능 비교

금융분야에서 많이 활용되는 머신러닝 모델인 MCMC 분야에서는 IPU의 빠른 처리능력도 주목받고 있다. 확률론 학습에서 그래프코어의 IPU를 적용해 기존 하드웨어로 2시간 이상 걸리던 작업을 4분 30초 분에 최적화할 수 있기 때문이다. 이는 훈련 시간이 26배 빨라진 것이다. 

BERT-BASE 훈련에 따른 추론 성능 비교

구글에서 개발한 자연어 처리 모델인 BERT를 통해서는 높은 정확도를 증명했다. 한 대의 IPU 서버가 8개의 C2 카드를 탑재해 56시간 동안 하나의 BERT-BASE를 훈련시켜 기존 하드웨어에 비해 추론 처리량이 3배, 대기 시간이 20% 이상 향상됐다. 

컴퓨터 비전의 추론 성능 비교

최근 자율주행차와 인공지능 CCTV에서 많이 활용되는 컴퓨터 비전 분야에서도 탁월한 성능을 보여줬다. 프랑스의 유명 검색엔진 회사인 '콴트(Qwant)'는 IPU를 시스템에 적용한 이후 페이스북 모듈형 ‘ResNeXt-101’ 아키텍처를 실행하는 데 성공했으며, 이미지 검색 속도가 3.5배 빨라졌다고 발표했다. 기존 프로세서와 비교해 가장 낮은 지연 시간에 있어서 40배의 이점을 제공하는 것도 강점이다. 오늘날 많은 컴퓨터 비전 사용 사례에서 가능한 가장 낮은 지연 시간의 높은 처리량이 핵심 요소로 떠오르고 있으며, 기업들이 비디오 콘텐츠를 위한 새로운 솔루션을 개발하고 있는 만큼 IPU의 값어치는 높아질 수밖에 없다. 

이런 장점 덕분에 IPU가 현재 마이크로소프트의 클라우드 컴퓨팅 서비스인 애저(Azure)에 활용되고 있다. 강민우 지사장은 “애저 플랫폼 안에서 머신러닝과 자연어처리 등을 활용해 새로운 서비스와 제품이 개발될 수 있을 것으로 기대된다”고 말했다. 

미디어 분야의 한 글로벌 업체는 업스케일링 기술로 IPU를 테스트 중이다. 업스케일링 기술은 인공지능 기술을 이용해 낮은 해상도의 영상을 고해상도로 변환시켜주는 기술이다. 강 지사장은 “이 회사 관계자로부터 기존의 하드웨어는 배치 사이즈가 크기 때문에 지연시간이 생겨 끊김이 많았는데, IPU로 바꾼 이후에는 끊김 현상이 사라졌다는 말을 들었다”고 강조했다. 현재 이 회사는 IPU 테스트를 적극적으로 진행 중이며, 빠르면 6월 중에 IPU 기반 서비스를 개통할 계획이다. 

이와 같은 기술력에 힘입어 그래프코어는 보쉬 벤처캐피탈, 삼성전자, 델 테크롤로지 캐피탈, 아마데우스 캐피털파트너스, C4벤처스, 드라퍼 에스프리트, 암(Arm) 공동 창업자 헤르만 하우저(Hermann Hauser)와 딥마인드(DeepMind) 공동 창업자 데미스 하사비스(Demis Hassabis) 등으로부터 3억 달러(약 3500억 원)를 유치했다. 현재 기업 가치를 15억 달러(약 1조 7400억 원)로 평가 받고 있다.

 

그래프 + 코어 = 코어칩

강민우 지사장은 “그래프코어는 제2의 인텔이 될 것”이라는 포부를 밝혔다. 단순히 AI용 칩만 만드는 회사가 아니라, 다양한 컴퓨터용 프로세서를 만드는 반도체 업계의 리더가 되겠다는 선언이다. 

인간의 뉴런(좌측)과 인공지능의 신경망(우측) 비교 (자료=다음백과, 위키백과)

이를 이해하기 위해선 그래프코어라는 사명의 어원을 살펴볼 필요가 있다. 머신 러닝(Machine Learning) 분야에서 그래프는 노드(Node)가 엣지(Edge)로 연결된 다른 노드로 이동하며 정보를 주고받는 것을 말하며, 이는 인간의 신경계 세포인 뉴런과 유사한 형태를 지닌다. 뉴런은 핵과 세포질이 모여있는 ‘신경세포체’와 신경세포체에서 길게 뻗어 나온 ‘축삭돌기’ 수억 개가 모여 뇌를 구성한다. 그래프 연산, 즉 인공지능 신경망은 뉴런의 신경세포체와 유사한 ‘노드’가 축삭돌기와 유사한 ‘엣지’를 통해 연결되며, 뉴런처럼 수많은 회로가 병렬로 연산 처리한다. 

여기에서 알 수 있듯, 그래프코어는 인공지능(AI) 모델링에 활용되는 그래프 연산과 코어(Core)의 합성어다. 그래프코어는 인공지능 반도체를 넘어 컴퓨터의 코어 칩을 만드는 종합반도체 회사가 되고자 하는 강력한 의지를 사명에 내포하고 있는 것이다. 

더불어 강 지사장은 “IPU가 뛰어난 성능에도 불구하고 아직까지 국내에서는 생소하게 받아들이는기업이 많다. 뛰어난 성능을 입증해도 엔비디아의 쿠다(Cuda) 플랫폼에서 그래프코어의 파플러(Poplar) 플랫폼으로 바꾸기를 꺼리거나 귀찮아 하는 기업을 접하곤 한다”며 한국 시장에서의 고충을 털어놓았다. 그러면서 “고객사가 구글의 텐서플로우나 페이스북의 파이토치로 파플러에 쉽게 접근하도록 IPU 최적화 작업을 도울 수 있는 AI 개발자를 모집하고 있다”고 말했다. 뛰어난 AI 개발자를 채용하는 것이 결국 IPU의 우수성을 국내 고객사에 알리고 그들의 마음을 돌려 세울 수 있기 때문이다. 

강민우 지사장은 우수한 AI 개발자의 적극적인 참여를 독려하며 “향후 영업인력도 충원해 하반기에는 본격적인 영업활동을 진행할 것”이라고 덧붙였다. 


- 이 글은 테크월드가 발행하는 월간 2020년 5월 호에 게재된 기사입니다.

이 기사를 공유합니다
저작권자 © 테크월드뉴스 무단전재 및 재배포 금지
이 기사와 관련된 기사