MoE: 대규모 MoE 모델의 메모리 효율적 실행 혁신
LLM과 같은 대규모 언어 모델은 실제 언어 및 추론 작업을 처리하는 탁월한 기능으로 인해 업계에서 상당한 주목을 받고 있습니다. 그럼에도 불구하고 더 광범위한 활용을 가로막는 주요 장애물은 배포와 관련된 막대한 컴퓨팅 비용입니다. 이 문제에 대한 잠재적인 해결책은 전문화된 전문가가 특정 입력 하위 집합을 처리할 수 있도록 하는 전문가 혼합(MoE) 아키텍처를 활용하는 것입니다. 이 전략은 다양한 언어 영역에서 최적의 성능을 유지하면서 전반적인 추론 부담을 효과적으로 줄일 수 있습니다.
MoE 아키텍처는 모델 성능의 저하 없이 추론 시간을 단축하는 것으로 나타났습니다. 하지만 이러한 장점은 메모리 사용량 증가라는 대가를 치르게 됩니다. 더 크고 효율적인 모델에 대한 요구 사항은 수많은 구성 요소를 복제해야 하므로 메모리 용량 측면에서 상당한 확장 문제를 야기합니다.
“실용적인 1비트 미만의 조 단위 파라미터 모델 압축"에서 오스트리아 과학기술원(ISTA)과 Neural Magic의 연구진은 압축 및 빠른 추론 과정에서 높은 정확도를 유지하면서 대규모 모델을 효과적으로 압축할 수 있는 수단으로 QMoE 프레임워크를 도입했습니다. 이 프레임워크는 모델 크기를 최대 90%까지 줄여주며, 매개변수당 단 하나의 비트 정보만 필요하므로 스토리지 및 계산 요구 사항을 간소화할 수 있습니다.
이 연구의 주요 목표는 표준 모델 압축 접근 방식을 통해 일반적으로 전문가 모델(MoE)과 관련된 상당한 메모리 부담을 최소화하는 동시에 높은 정확도 수준을 유지하는 것입니다. 그럼에도 불구하고 현재의 데이터 기반 양자화 전략을 MoE에 적용하면 메모리 요구량 증가, 신뢰성 문제, 비효율적인 GPU 사용 등 일련의 장애물이 발생합니다.
이러한 어려움을 해결하기 위해 연구 그룹은 계산을 중개 정보의 제한된 부분으로 제한하여 모델의 실행을 세심하게 수행합니다. 이 방법은 주요 스토리지 부하를 GPU에서 보다 경제적이고 넉넉한 CPU 메모리로 효율적으로 전송합니다.
고밀도 모델 구성 요소의 효율적인 평가를 보장하는 동시에 샘플별로 전문가 토큰의 벡터화된 쿼리를 허용하기 위해 우리 팀은 하나의 큰 버퍼를 저장하는 목록 버퍼 데이터 구조를 사용합니다. 이 데이터 구조의 사용은 최적의 성능을 달성하는 데 매우 중요하며, 특히 샘플 수가 많을수록 점점 더 어려워지는 마스킹을 통한 반복 샘플링과 토큰 검색으로 인해 발생하는 상당한 시간 제약을 고려할 때 더욱 그렇습니다.
GPU 활용도 저하 문제를 완화하기 위해 유니티는 여러 전문가를 그룹으로 묶어 협업 버전의 GPTQ 알고리즘을 활용하고 있습니다. 또한, 수많은 레이어로 구성된 초대형 모델의 양자화 프로세스를 효과적으로 처리하기 위해 수치 및 메모리 측면에 대한 변경 사항을 통합하여 기존 GPTQ 방법론에 몇 가지 수정을 가했습니다. 이번 조사를 통해 마스킹 언어 모델링, 멀티태스크 학습, 이진 또는 삼진 양자화를 위해 훈련된 언어 모델의 특정 도메인 내에서 GPTQ를 배포하는 것과 관련된 고유한 인사이트를 얻을 수 있었습니다.
연구자들은 양자화된 가중치에 내재된 불확실성 감소를 활용하여 추론 단계에서 각 가중치에 대해 1비트 미만의 압축을 효율적으로 달성하는 동시에 GPU의 추가 계산 부담을 최소화하는 인코딩 전략과 CUDA 커널을 고안합니다.
성능 저하를 최소화하면서 1조 6천억 개의 매개변수를 가진 SwitchTransformer-c2048 모델의 크기를 160기가바이트 미만으로 효과적으로 줄인다는 경험적 증거는 제안된 QMoE 프레임워크의 효과를 뒷받침합니다. 이 성과는 단일 그래픽 처리 장치(GPU)를 사용하여 단 하루 만에 달성한 것입니다. 전반적으로 이 연구는 처음으로 일반 하드웨어에서 대규모 MoE 모델을 실용적으로 구현할 수 있는 중요한 진전을 의미합니다.
논문 QMoE: 조-파라미터 모델의 실용적인 1비트 미만 압축 arXiv .