엔비디아, 추론 성능 가속화하는 텐서RT-LLM 출시

총 소유비용과 에너지 효율 개선으로 운영비용 절감효과 기대

[테크월드뉴스=박규찬 기자] 엔비디아가 새로운 소프트웨어 엔비디아 텐서RT-LLM(NVIDIA TensorRT-LLM)을 출시했다고 12일 밝혔다.

대규모 언어 모델(LLM)의 획기적인 새로운 기능은 AI의 영역을 넓히고 있다. 그러나 큰 크기와 특수한 실행 특성으로 비용 효율적인 방식으로 사용하기 어려울 수 있다.

엔비디아는 대규모 언어 모델 추론을 가속화하고 최적화하기 위해 메타(Meta), 애니스케일(Anyscale), 코히어(Cohere), 데시(Deci), 그래머리(Grammarly), 미스트럴 AI(Mistral AI), 현재 데이터브릭스(Databricks)로 인수된 모자이크ML(MosaicML), 옥토ML(OctoML), 탭나인(Tabnine), 투게더 AI(Together AI), 우버(Uber) 등 주요 기업들과 긴밀히 협력하고 있다.

이런 혁신은 몇 주 내로 출시 예정인 오픈 소스 소프트웨어인 엔비디아 텐서RT-LLM에 통합됐으며 암페어(Ampere), 러브레이스(Lovelace)와 호퍼(Hopper) GPU에서 사용할 수 있다.

텐서RT-LLM은 텐서RT 딥 러닝 컴파일러로 구성되며 최적화된 커널, 전처리와 후처리 단계, 멀티 GPU/멀티 노드 통신 프리미티브를 포함해 엔비디아 GPU에서 획기적인 성능을 제공한다. 이를 통해 개발자는 C++ 또는 엔비디아 쿠다(CUDA)에 대한 전문적인 배경 지식 없이도 최고의 성능과 빠른 사용자 정의 기능을 제공하는 새로운 대규모 언어 모델을 테스트할 수 있다.

텐서RT-LLM은 대규모 언어 모델이 발전함에 따라 오픈 소스 모듈식 파이썬 API(Python API)를 통해 사용 편의성과 확장성을 개선하고 쉽게 사용자 맞춤화할 수 있다. 파이썬 API는 새로운 아키텍처와 개선 사항을 정의 및 최적화, 실행할 수 있다.

예를 들어 모자이크ML은 텐서RT-LLM 위에 필요한 특정 기능을 원활하게 추가하고 추론 서비스에 통합했다.

데이터브릭스의 엔지니어링 담당 나빈 라오(Naveen Rao) 부사장은 “텐서RT-LLM은 사용이 간편하고 토큰 스트리밍, 인플라이트 배칭, 페이지드 어텐션, 정량화 등 다양한 기능을 갖추고 있으며 효율적”이라며 “이 솔루션은 엔비디아 GPU를 사용해 대규모 언어 모델 서비스를 위한 최첨단 성능을 제공하고 고객에게 비용 절감 효과를 전달한다”고 말했다.

회원가입 후 이용바랍니다.

개의 댓글

BEST댓글

BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.

댓글삭제

삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?

댓글수정

댓글 수정은 작성 후 1분내에만 가능합니다.

내 댓글 모음

박규찬 기자 (technomist@techworld.co.kr)

기자의 다른기사 보기

434호

256호

엔비디아, 추론 성능 가속화하는 텐서RT-LLM 출시

총 소유비용과 에너지 효율 개선으로 운영비용 절감효과 기대