Contents

와이드 오픈: NVIDIA, 메타 라마 3의 추론 가속화

/images/wide-open-nvidia-accelerates-inference-on-meta-llama-3.jpg

NVIDIA는 오늘 모든 플랫폼에서 최신 세대 대규모 언어 모델( LLM ) 메타 라마 3 을 가속화하기 위한 최적화를 발표했습니다.

NVIDIA 가속 컴퓨팅 과 결합된 개방형 모델은 개발자, 연구원 및 기업이 다양한 애플리케이션에서 책임감 있게 혁신할 수 있도록 지원합니다.

NVIDIA AI

메타 엔지니어들은 24,576 NVIDIA H100 텐서 코어 GPU 로 구성된 컴퓨터 클러스터에서 NVIDIA 퀀텀-2 인피니밴드 네트워크에 연결된 Llama 3를 훈련시켰습니다. 메타는 NVIDIA의 지원을 받아 주력 LLM을 위해 네트워크, 소프트웨어 및 모델 아키텍처를 조정했습니다.

제너레이티브 AI 의 최첨단 기술을 더욱 발전시키기 위해 Meta 는 최근 인프라를 35만 개의 H100 GPU로 확장할 계획을 설명했습니다.

라마 3 활용하기

NVIDIA GPU 활용을 통해 최적화된 라마 3는 현재 클라우드 컴퓨팅, 데이터센터, 엣지 디바이스, 개인용 컴퓨터 등 다양한 플랫폼에서 이용할 수 있습니다.

브라우저에서 개발자는 ai.nvidia.com 에서 Llama 3를 사용해 볼 수 있습니다. 어디에나 배포할 수 있는 표준 애플리케이션 프로그래밍 인터페이스가 포함된 NVIDIA NIM 마이크로서비스로 패키징되어 있습니다.

기업은 안전하고 지원되는 NVIDIA AI Enterprise 플랫폼의 일부인 LLM용 오픈 소스 프레임워크인 NVIDIA NeMo 을 사용하여 데이터로 Llama 3를 미세 조정할 수 있습니다. 사용자 지정 모델은 NVIDIA TensorRT-LLM 로 추론에 최적화할 수 있으며 NVIDIA Triton 추론 서버 으로 배포할 수 있습니다.

라마 3를 디바이스 및 PC로 가져가기

라마 3는 로봇 및 엣지 컴퓨팅 디바이스용 NVIDIA Jetson Orin 에서도 실행되어 Jetson AI Lab 에서와 같은 대화형 에이전트를 생성합니다.

또한, 워크스테이션 및 PC용 NVIDIA RTX GeForce RTX GPU는 라마 3에서 추론 속도를 높입니다. 이러한 시스템을 통해 개발자는 전 세계 1억 개 이상의 NVIDIA 가속 시스템을 목표로 삼을 수 있습니다.

Llama 3으로 최적의 성능 얻기

챗봇용 최신 대규모 언어 모델(LLM)을 구현하려면 지연 시간 최소화, 신속한 판독 능력, 그래픽 처리 장치(GPU)의 현명한 활용, 비용 최소화 사이에서 균형을 이뤄야 합니다.

이러한 시스템에서 최적의 성능을 달성하려면 언어 모델의 단어와 유사한 토큰을 일반적인 리더 속도보다 약 2배 빠른 속도(초당 약 10개의 토큰에 해당)로 생성해야 합니다.

이러한 지표를 적용한 결과, 700억 개의 매개변수가 있는 라마 3 버전을 사용한 초기 테스트에서 단일 NVIDIA H200 텐서 코어 GPU 은 초당 약 3,000개의 토큰을 생성하여 약 300명의 동시 사용자에게 서비스를 제공할 수 있는 양을 생성했습니다.

즉, 8개의 H200 GPU가 장착된 단일 NVIDIA HGX 서버가 초당 24,000개의 토큰을 제공할 수 있으며, 동시에 2,400명 이상의 사용자를 지원하여 비용을 더욱 최적화할 수 있습니다.

엣지 디바이스에 라마 3를 배포할 때의 성능 메트릭은 주목할 만한 결과를 보여줍니다. 특히, Jetson AGX Orin을 활용했을 때 초당 약 40개의 토큰을 처리하는 속도를 달성했습니다. 이와 유사하게, 더 컴팩트한 젯슨 오린 나노를 사용할 경우 초당 약 15개의 토큰을 처리하는 인상적인 처리량이 관찰되었습니다. 이러한 결과는 다양한 하드웨어 플랫폼에서 다양한 연산 작업을 처리하는 이 최첨단 기술의 효율성과 확장성을 잘 보여줍니다.

커뮤니티 모델 발전

NVIDIA는 복잡한 문제에 직면한 사용자를 위한 솔루션 최적화를 목표로 오픈 소스 소프트웨어에 적극적으로 기여하고 있습니다. 오픈 소스 모델을 장려함으로써 인공지능의 투명성을 높이고 인공지능의 안전성과 견고성에 대한 광범위한 협업을 가능하게 합니다.

NIM, TensorRT-LLM 및 Triton이 저순위 적응 과 같은 최첨단 기술을 사용하여 최신 LLM을 가속화하는 방법을 포함한 NVIDIA의 AI 추론 플랫폼에 대해 자세히 알아보세요.