휴대폰 GPU에서 10배 이상의 프리필 및 2~3배의 디코딩 부스트를 제공하는 OPPO AI의 Transformer-Lite
대규모 언어 모델(LLM)은 지능형 비서, 텍스트 요약 생성, 언어 번역, 스마트폰의 다중 모드 작업 등 다양한 실제 시나리오에서 탁월한 성능을 입증했습니다. 그러나 현재 로컬에 LLM을 배포하는 접근 방식은 추론 속도가 느려 병목 현상이 심각하여 최종 사용자 경험이 만족스럽지 못합니다.
모바일 GPU에서 대규모 언어 모델의 효율적인 배포"라는 제목의 논문에서 OPPO AI 센터의 연구원들은 이 문제를 해결하기 위한 혁신적인 접근 방식을 제안합니다. 연구진은 4가지 주요 최적화를 구현하여 Transformer-Lite라는 고효율 모바일 추론 엔진을 개발했습니다. 특히 CPU 기반 FastLLM 및 GPU 기반 MLC-LLM 시스템과 비교했을 때 Transformer-Lite는 비슷한 디코딩 속도를 유지하면서 10배 이상의 가속화를 통해 프리필 속도가 크게 향상되었습니다.
연구진은 디바이스의 GPU에 대규모 언어 모델(LLM)을 최적화하기 위해 일반 추론 엔진과 LLM 전용 추론 엔진을 결합하는 새로운 접근 방식을 개발했습니다. 이 혁신적인 방법론은 리소스를 유지하면서 성능을 향상시킬 것으로 기대됩니다. 연구팀은 이러한 개선 사항을 구현하기 위해 다음과 같은 네 가지 핵심 전략을 확인했습니다:
기호 표현식 기반 접근 방식은 동적 형상 도출, 메모리 재사용, 실행 스케줄링을 포괄하여 형상 모델의 동적 추론을 지원합니다. 또한 연산자 최적화 및 우선순위 설정이 구현되어 전반적인 성능을 개선하고 모바일 디바이스에서 지연을 방지합니다. FP4 양자화 방식은 양자화와 관련된 계산 비용을 최소화하기 위해 활용되며, 보다 간소화된 행렬 곱셈을 통해 효율성을 높입니다. 마지막으로, 반복적인 언어 모델 추론 주기 동안 모델 출력과 입력 간에 키-값(KV) 캐시 데이터를 반복적으로 복사할 필요가 없는 서브 텐서 기반 접근 방식이 사용됩니다.
또한 연구자들은 Transformer-Lite 시스템을 구축하여 앞서 언급한 개선 사항을 이 시스템에 통합했습니다. 이 프레임워크는 PyTorch와 같은 플랫폼을 통해 생성된 ONNX 모델을 활용하여 대규모 언어 모델을 배포할 수 있으므로 원활한 배포를 촉진하고 다양한 새로운 아키텍처를 쉽게 수용할 수 있습니다.
24GB 메모리 용량을 갖춘 Oppo Find X7과 12GB 메모리 구성이 탑재된 Oppo Find X7 Ultra.다양한 아키텍처 설계와 크기 매개변수를 나타내는 5가지 LLM 모델의 성능을 평가합니다: Gemma 2B, Qwen1.5 4B, ChatGLM2 6B, Llama2 7B, Qwen1.5 14B. 그 결과 GPU 기반 MLC-LLM 및 CPU 기반 FastLLM 기술과 비교했을 때 Transformer-Lite 엔진을 활용했을 때 더 유리한 결과를 얻을 수 있었습니다.
Transformer-Lite 엔진은 ChatGLM2 6B 및 Gemma 2B 모델에 대해 프리필링 및 디코딩 측면에서 인상적인 성능을 보여줍니다. ChatGLM2 6B의 경우 프리필 시 초당 121개, 디코딩 시 초당 14개라는 놀라운 속도와 Gemma 2B의 경우 프리필 시 초당 330개, 디코딩 시 초당 30개의 토큰을 처리하여 이전 모델보다 효율성이 크게 향상되었습니다. 특히 이러한 결과는 CPU 기반 FastLLM 및 GPU 기반 M
과 비교할 때 프리필 속도는 10배 이상, 디코딩 속도는 2배에서 3배 이상 향상된 놀라운 결과입니다. 논문 Transformer-Lite: 고효율 대규모 언어 모델의 모바일 폰 GPU 배포 arXiv 에 있습니다.