대규모 언어 모델 슈퍼차지: 추론 시간이 2배 이상 빨라진 DEJAVU의 FasterTransformer
GPT-3, PaLM, OPT를 포함한 대규모 언어 모델은 인공지능 분야에서 뛰어난 성과를 거두면서 문맥 학습에 대한 놀라운 적성을 인상적으로 입증해 왔습니다. 그럼에도 불구하고 이러한 모델들은 추론 과정에서 상당한 계산 비용이 든다는 점에서 큰 한계를 가지고 있습니다. 스파스 기법을 사용하여 이 문제를 완화하기 위한 다양한 전략이 시도되었지만, 광범위한 재교육과 관련된 추가 비용을 발생시키거나 모델의 상황 내 학습 능력을 희생시키지 않고 완전히 효과적인 것으로 입증된 것은 없습니다. 게다가 현재 이러한 방법의 구현은 최신 하드웨어 아키텍처에서 만족스러운 속도를 달성하지 못하고 있습니다.
추론 시간 동안 대규모 언어 모델이 직면한 문제를 해결하기 위해 Rice University, Zhejiang University, Stanford University, 캘리포니아 대학교 샌디에이고, ETH Zurich Adobe Research, Meta AI(FAIR), 카네기 멜론 대학교 등의 기관의 연구진이 비용 효율적인 알고리즘을 활용하여 개별 계층의 문맥 스파스시티를 동적으로 예측하는 동시에 비동기식 하드웨어 인식 접근 방식을 구현하여 LLM 추론을 가속화하는 새로운 시스템인 DEJAVU를 개발했습니다.
즉, 모델을 재학습할 필요가 없고, 고품질 성능과 컨텍스트 내 학습 기능을 유지하며, 최신 하드웨어에서 처리 속도를 가속화할 수 있어야 한다는 것입니다. 이러한 까다로운 전제 조건을 충족하기 위해, 특정 입력에 대해 전체 모델과 유사한 출력을 제공하는 주의 헤드와 MLP 파라미터의 적당한 입력 의존적 하위 집합을 포함하는 컨텍스트 스파스시티 개념을 도입하여 기존의 정적 스파스시티를 뛰어넘습니다.
이들의 이론은 입력의 맥락을 고려할 때 사전 학습된 대규모 언어 모델(LLM) 내에서 희소성의 한 형태가 우세하다고 가정합니다. 이 원리를 활용하여 추론 단계에서 선택적 주의 헤드와 행렬 곱 레이어 매개변수를 잘라내면서 변경되지 않은 사전 학습 프로세스의 무결성을 유지합니다. 문맥 희소성이라는 개념을 활용하여 엄격한 지연 시간 요건을 요구하는 사용 사례에 대해 LLM의 효율성을 최적화합니다.
연구자들은 희소 표현을 실시간으로 예측하기 위한 비용 효율적인 지식 기반 접근 방식을 제안합니다. 이 방법은 특정 레이어에 대한 입력 데이터를 참조로 삼아 다음 단계와 관련된 주의 헤드셋 또는 다층 퍼셉트론(MLP) 파라미터의 선택된 그룹을 식별하고 계산 목적으로만 해당 로딩 프로세스를 시작합니다.또한, 기존의 분기 예측 기법을 연상시키는 비동기 예측기를 통합하여 순차적 처리로 인한 병목 현상을 완화합니다.
오픈 소스 대규모 언어 모델(LLM)인 DEJAVU는 스파스 행렬 곱셈에 하드웨어를 고려한 접근 방식을 통합하여 성능을 크게 향상시켰습니다. 그 결과 특히 OPT-175B 버전의 모델을 사용할 때 지연 시간이 단축되었습니다. 특히 DEJAVU의 성능은 모든 벤치마크에서 비슷한 품질 수준을 유지하면서 엔비디아에서 개발한 FasterTransformer 라이브러리와 널리 사용되는 허깅 페이스 구현의 성능을 모두 능가합니다.
이 연구는 DEJAVU 프레임워크 내에서 비동기 룩헤드 예측기와 하드웨어 효율적인 스파스시티 기법을 성공적으로 구현하여 월 클럭 시간 측면에서 대규모 언어 모델(LLM)에 대한 추론을 가속화하는 결과를 보여줍니다. 고무적인 실험 결과는 현재의 최신 모델과 비교했을 때 추론 대기 시간을 현저히 최소화하는 데 문맥 희소성을 사용하는 것이 상당한 이점이 있음을 시사합니다. 연구진은 이번 연구가 광범위한 인공 지능 커뮤니티에서 LLM을 보다 쉽게 사용할 수 있도록 하여 혁신적인 인공 지능 애플리케이션을 위한 기반을 마련하는 데 중요한 이정표가 될 것으로 보고 있습니다.
코드는 프로젝트의 GitHub 에서 확인할 수 있습니다. 논문 Deja Vu: 추론 시점에 효율적인 LLM을 위한 컨텍스트 스파스시티 arXiv .