그래프코어, 머신 인텔리전스에 특화된 2세대 IPU 시스템 출시

우수한 연산능력, 메모리, 확장성으로 데이터센터급 연산 성능 구현

[테크월드=김경한 기자] 그래프코어(Graphcore)가 유닛 하나로 1페타플롭에 달하는 머신 인텔리전스 컴퓨팅 성능을 구현하는 2세대 IPU(Intelligence Processing Unit) 플랫폼 ‘IPU-머신 M2000(IPU-Machine M2000)’을 출시한다. 해당 솔루션은 보다 큰 처리 능력과 메모리, 내장된 확장성을 바탕으로 극도의 머신 인텔리전스 워크로드를 처리할 수 있으며, 데이터센터급 연산 성능을 구현할 수 있다.

GPU 대비 메모리 밀도 10배와 대역폭 100배

IPU-머신 M2000은 플러그 앤 플레이 방식의 머신 인텔리전스 컴퓨팅 블레이드로, 간편한 구축을 위해 설계됐으며 대규모로 확장할 수 있는 시스템을 지원한다. 슬림한 블레이드 유닛 하나로 1 페타플롭(PetaFlop)에 달하는 머신 인텔리전스 컴퓨팅 성능을 구현하며, 인공지능(AI)의 스케일아웃(scale-out)에 최적화된 통합 네트워킹 기술을 탑재했다.

각각의 IPU-머신 M2000은 그래프코어의 7나노미터(nm) 콜로서스(Colossus) Mk2 GC200 IPU 프로세서 4개에 의해 구동되며, 그래프코어의 포플러(Poplar) 소프트웨어 스택의 지원을 받는다. 기존 Mk1 IPU 제품의 모델·시스템과 새로운 Mk2 IPU 시스템 간 뛰어난 호환성을 갖췄을 뿐 아니라, 이미 동급 최고인 1세대 그래프코어IPU 제품에 비해서도 8배나 향상된 성능을 제공한다.

또한 포플러 소프트웨어는 IPU가 그래프코어의 독자적인 익스체인지-메모리(Exchange-Memory) 통신 기능을 통해 스트리밍 메모리(Streaming Memory)에 액세스할 수 있도록 지원한다. 이를 통해 수천억 개의 매개 변수를 갖는 대규모 모델 또한 지원할 수 있다. 각 IPU-머신 M2000은 최대 450GB의 밀도를 제공하며, 초당180테라바이트에 이르는 독보적인 대역폭으로 익스체인지-메모리를 지원한다. 이에 따라 IPU 익스체인지-메모리는 최신 7나노 공정의 GPU 제품 대비 10배 이상의 높은 메모리 밀도와 100배 이상 높은 메모리 대역폭의 이점을 제공한다.

데이터센터급 머신 인텔리전스 연산 성능

IPU의 독자적인 메모리 액세스 방식과 동급 최고의 인-프로세서 메모리(In-Processor Memory) 설계, 익스체인지 메모리 기능의 조합은 희소성(sparsity)에 대한 네이티브 지원과 함께 대규모의 복잡한 머신 러닝 모델을 초고속으로 구현할 수 있게 해준다.

IPU-머신 M2000의 아키텍처는 최대 6만 4000 IPU의 데이터센터 규모 시스템을 IPU-POD 구성 방식으로 구축해 16엑사플롭(ExaFlops)의 머신 인텔리전스 연산 성능을 구현할 수 있다. 이를 통해 가장 까다로운 머신 인텔리전스 학습이나 대규모 구축에 따른 워크로드도 처리할 수 있다.

IPU-머신 M2000은 단일 IPU-머신 M2000 박스 하나를 기존의 CPU 서버 중 하나에 직접 연결해 구축할 수 있으며, 서버 한대에 최대 8대의 IPU-머신 M2000을 추가로 연결시킬 수도 있다. 대규모 시스템의 경우, 표준 19인치 랙에 내장된 16개의 IPU-머신 M2000으로 구성된 랙 스케일 IPU-POD 64를 사용해 랙을 스케일아웃해 데이터센터급 머신 인텔리전스 연산 성능을 구현한다.

IPU-머신 M2000과 IPU-POD는 그래프코어의 새로운IPU-패브릭(IPU-Fabric) 기술을 통해 규모에 맞게 연결할 수 있다. 내장된 AI네트워킹 시스템으로, 머신 인텔리전스 통신 전용으로 설계된 해당 기술은 저지연의 전용 패브릭을 구현해 데이터센터 전반에 걸쳐 IPU를 연결시킨다.

편리한 워크로드 관리

그래프코어의 ‘버추얼-IPU(Virtual-IPU)’ 소프트웨어는 워크로드 관리·오케스트레이션(orchestration) 소프트웨어와 통합돼 다양한 사용자의 학습과 추론을 위한 서비스를 손쉽게 제공하며, 이를 통해 사용자는 가용 자원을 작업별로 조정·재구성할 수 있다.

머신 인텔리전스 워크로드에 단일 IPU 또는 수천 개의 IPU를 사용하는 경우에도 그래프코어의 포플러 SDK(Poplar SDK)를 통해 해당 작업을 간소화할 수 있다. 포플러는 텐서플로우(TensorFlow)나 파이토치(PyTorch)와 같이 사용자가 선호하는 AI 프레임워크를 활용할 수 있으며, 해당 프레임워크로부터 연산 내용, 데이터와 통신을 포괄하는 완전한 연산 그래프를 구축한다. 이후 해당 연산 그래프를 컴파일하고, 연산, 메모리 및 네트워킹 통신을 관리하는 런타임 프로그램을 구축하여 가용 IPU 하드웨어의 활용성을 극대화할 수 있다.

그래프코어 IPU-머신 M2000 솔루션은 데이터센터에 머신 인텔리전스 컴퓨팅 기능의 추가 도입 계획을 검토하는 기업에게 강력하고 유연하며 간편한 사용을 바탕으로 탁월한 선택지를 제공한다.

IPU-머신 M2000은 새로운 그래프코어 콜로서스 Mk2 GC200 IPU를 탑재하고 있다. TSMC사의 최신 7나노 공정 기술을 이용해 개발된 각각의 칩에는 823 평방밀리미터(sqmm) 넓이의 단일 다이(die)에 594억 개가 넘는 트랜지스터가 탑재돼 있어 지금까지 개발된 프로세서 중 가장 정교한 수준의 아키텍처를 자랑한다.

GC200에는 1472개의 개별 IPU-코어가 통합돼 있어 8832개의 개별적인 병렬 연산 스레드를 실행할 수 있다. 각 IPU 프로세서 코어는 그래프코어가 독자적으로 개발한 ‘AI-플로트(AI-Float)’로 불리는 일련의 새로운 부동 소수점 기술을 통해 성능을 향상시킨다. 산술 구현 성능을 조정해 머신 인텔리전스 연산의 전력 소비와 성능을 개선하고 각각의 IPU-머신 M2000 블레이드 유닛 하나 당 최대 1 페타플롭의 AI 연산 성능을 제공한다.

나이젤 툰(Nigel Toon) 그래프코어 최고경영자(CEO)는 “그래프코어의 2세대 IPU 플랫폼을 선보이게 되어 매우 기쁘게 생각한다”며, “이번에 새롭게 출시한 M2000은 기존에 비해 8배 가량 향상된 성능을 제공해 가장 까다로운 머신 러닝 및 대규모 데이터센터급 워크로드 처리도 가능하다. 그래프코어는 앞으로도 탄탄한 글로벌 파트너 생태계(에코시스템)를 바탕으로 머신 인텔리전스 분야의 다양한 고객층을 지원하기 위해 적극적인 시장 공략에 나설 것”이라고 말했다.

그래프코어 강민우 한국 지사장은 “그래프코어는 지속적인 혁신 제품 개발을 통해 국내외 AI 기업 고객의 요구사항을 충족하고 있다”며, “실제로 많은 고객들이 GPU 기반 기술 대비 월등한 성능 개선을 통한 상업적 이점과 AI 연구 분야 진전에 도움이 됐다고 보고하고 있다. 그래프코어는 국내 비즈니스 강화에 초점을 두고 전폭적인 고객 지원을 아끼지 않겠다”고 덧붙였다.

IPU-머신 M2000 및 IPU-POD 64 시스템은 지금 바로 사전 주문이 가능하며, 본격적인 양산과 출하 일정은2020년 4분기부터 시작될 예정이다. 초기 이용 고객은 7월 17일부터 그래프코어의 클라우드 파트너인 시라스케일(Cirrascale)의 클라우드를 통해 IPU-POD 시스템을 평가해 볼 수 있다.

회원가입 후 이용바랍니다.