Contents

1비트 LLM의 시대를 맞이하다: 효율성을 재정의하는 Microsoft & UCAS의 BitNet b1.58

Contents

최근 대규모 언어 모델(LLM)이 보여준 눈부신 발전은 광범위한 자연어 처리 작업을 포괄하고 있습니다. 하지만 이러한 발전은 지속적인 확장으로 인한 엄청난 장애물을 동반하고 있으며, 이는 배포와 관련된 어려움을 야기할 뿐만 아니라 에너지 소비 요구 사항 증가로 인한 생태학적 영향과 재정적 파급 효과에 대한 우려를 불러일으키고 있습니다.

대규모 언어 모델(LLM)을 학습할 때 직면하는 문제를 고려하여 추론 목적으로 저비트 모델을 생성하기 위해 학습 후 양자화 기술을 활용하는 것이 널리 사용되는 접근 방식 중 하나입니다. 이 방법은 가중치와 활성화 값의 정밀도를 모두 낮춤으로써 LLM의 메모리와 계산 요구 사항을 효과적으로 최소화합니다. 또한 1비트 모델 아키텍처에 대한 지속적인 연구는 BitNet에서 입증된 바와 같이 전반적인 성능을 저하시키지 않으면서도 LLM과 관련된 리소스 부담을 완화할 수 있는 큰 가능성을 제시합니다.

모든 대형 언어 모델은 1.58비트로"는 Microsoft Research와 중국과학원대학의 공동 노력으로 도입된 획기적인 혁신인 BitNet b1.58을 소개합니다. 이 최첨단 모델은 이전 버전인 1비트 비트넷의 기본 원리를 기반으로 구축되었으며 지연 시간, 메모리 사용률, 처리 속도 및 전력 소비를 획기적으로 개선하여 계산 효율성을 혁신적으로 향상시켰습니다.

/images/embracing-the-era-of-1-bit-llms-microsoft-ucass-bitnet-b1-58-redefines-efficiency.png

비트넷 b1.58은 트랜스포머 모델을 사용하는 비트넷 아키텍처를 발전시켜 nn.Linear를 BitLinear로 대체합니다. 이 버전은 {-1, 0, 1} 값을 갖는 삼항식 파라미터를 사용하며, 추가 값 0을 도입하여 이진 시스템 내에서 정보 용량을 초기 1비트 형식에서 1.58비트로 확장합니다.

이전 버전과 달리 BitNet b1.58은 일련의 개선과 발전이 특징입니다:

양자화 기능: 연구팀은 실험에서 성능에 미치는 영향이 미미한 반면 구현과 시스템 수준 최적화 모두에서 더 편리하고 간단한 것으로 입증된 앱스평균 양자화 함수를 채택했습니다. LLaMA와 유사한 구성 요소: BitNet b1.58은 LLaMA와 유사한 구성 요소를 통합하여 RMSNorm, SwiGLU, 로터리 임베딩을 사용하고 모든 편향을 제거합니다. 이러한 설계 덕분에 최소한의 노력으로 인기 있는 오픈 소스 소프트웨어에 원활하게 통합할 수 있습니다. /images/embracing-the-era-of-1-bit-llms-microsoft-ucass-bitnet-b1-58-redefines-efficiency-1.png /images/embracing-the-era-of-1-bit-llms-microsoft-ucass-bitnet-b1-58-redefines-efficiency-2.png

연구자들은 여러 척도에서 BitNet b1.58과 FP16 LLaMA LLM의 비교 평가를 수행했습니다.연구 결과에 따르면 BitNet b1.58은 모델 크기가 30억 개에 달할 때 난해성 측면에서 고정밀 LLaMA LLM과 동등함을 달성하는 동시에 해당 모델에 비해 2.71배의 속도 향상과 3.55배 적은 그래픽 처리 장치(GPU) 메모리 소비를 보여주었습니다.

또한, 비트넷 b1.58은 행렬 곱셈에 최소한의 곱셈 연산이 필요한 획기적인 계산 모델을 포함하는 초기 1비트 비트넷의 핵심 장점을 유지하여 탁월한 최적화를 지원합니다. 또한 기본 1비트 비트넷과 전력 사용량은 동일하지만 메모리 사용률, 처리 속도, 응답 시간 측면에서 성능이 크게 향상되었습니다.

앞서 언급한 이점 외에도 BitNet b1.58은 두 가지 추가적인 이점을 제공합니다. 첫 번째 장점은 모델 가중치 내에 0을 통합함으로써 강화된 모델링 기능으로 1비트 LLM의 전반적인 성능을 크게 향상시킬 수 있다는 점입니다. 또한, 경험적 증거에 따르면 BitNet b1.58은 비슷한 구성 설정을 사용하면서도 기본 모델 크기가 30억인 고정밀 모델과 비슷한 수준의 난해성 및 최종 작업 성능을 보여줍니다.

BitNet b1.58은 저렴한 비용으로 최적의 성능을 유지하면서 고급 언어 모델을 훈련하는 혁신적인 접근 방식을 제시합니다. 또한 이 획기적인 방법론은 획기적인 계산 모델을 도입하고 1비트 언어 모델을 위해 특별히 설계된 맞춤형 하드웨어를 개발할 수 있는 기반을 제공합니다.

논문 1비트 LLM의 시대: 모든 대규모 언어 모델은 1.58비트에 있다 arXiv 에 있습니다.