테슬라, 엔비디아 A100 GPU 탑재한 자율주행용 슈퍼컴퓨터 공개

8개의 엔비디아 A100 텐서 코어 GPU로 1.8 엑사플롭스 달성

[테크월드뉴스=서유덕 기자] 안드레아 카르파티(Andrej Karpathy) 테슬라 AI 담당 수석 디렉터는 19일부터 25일까지(현지시간) 온라인으로 진행되는 컴퓨터 비전 컨퍼런스 ‘CVPR 2021’에서 오토파일럿(ADAS)·자율주행 심층 신경망(DNN) 훈련에 사용하는 슈퍼컴퓨터를 공개했다.

안드레아 카르파티 테슬라 디렉터가 엔비디아 GPU가 탑재된 슈퍼컴퓨터를 소개하고 있다

해당 클러스터는 8개로 구성된 엔비디아 A100 텐서(Tensor) 코어 GPU(총 5760 GPU)의 720개 노드를 활용해 1.8 엑사플롭스(EFLOPS: 10¹⁸FLOPS/s)의 초당 부동 소수점 연산 성능을 발휘한다. 카르파티 디렉터는 “플롭 측면에서 보면 해당 슈퍼컴퓨터는 세계 5위라 할 수 있다”고 설명했다.

‘그림자 모드’로 구동되는 테슬라의 DNN은 주행 중 자동으로 감지·예측을 수행하며, 실수나 잘못된 식별도 모두 기록한다. 테슬라 엔지니어는 기록된 데이터를 활용해 복잡하고 다양한 시나리오의 훈련 데이터세트를 생성함으로써 DNN을 개선한다.

초당 36 프레임으로 녹화된 약 10초 길이의 클립 1백만 개를 수집해 총 1.5페타바이트(PB)에 이르는 빅데이터가 쌓이면 DNN이 오류 없이 작동할 때까지 데이터센터에서 시나리오를 반복 실행한다. 이는 차량으로 다시 전송되고, 프로세스는 다시 시작된다.

카르파티 디렉터는 “이 같은 DNN 훈련을 위해 많은 양의 데이터를 저장하려면 대규모의 컴퓨팅 수행이 필수적”이라며, “이는 테슬라가 A100 GPU를 갖춘 최첨단 슈퍼컴퓨터를 구축한 이유”라고 말했다.

엔비디아 A100 GPU는 규모에 상관없이 가속화를 제공해 높은 성능을 낼 수 있어 전 세계 데이터센터에 채택되고 있다. 엔비디아 암페어(Ampere) 아키텍처를 기반으로 하는 A100 GPU는 이전 세대보다 최대 20배 향상된 성능을 제공하며, 요구에 따라 최대 7개의 독립된 GPU 인스턴스로도 분할 가능하다.