Contents

Meta와 MBZUAI의 이 AI 백서에서는 모델 크기와 지식 저장 용량에 관한 매우 정확한 확장 법칙을 조사하는 원칙적인 AI 프레임워크를 소개합니다.

Contents

대규모 언어 모델(LLM)의 확장 법칙을 조사한 연구에서는 모델 크기, 학습 시간, 성능 간의 상호 작용을 탐구합니다. 기존의 통념은 특정 모델 크기에 대한 최적의 리소스 할당을 제안하지만, 최근의 연구 결과는 추가 계산 리소스로 보강된 작은 모델이 큰 모델을 능가한다는 사실을 입증함으로써 이러한 통념과 모순됩니다. 대형 모델의 새로운 속성을 이해하는 것이 중요하지만, 적절한 훈련 이후 모델 크기가 모델 용량에 어떤 영향을 미치는지 밝히기 위해서는 추가적인 정량적 평가가 필요합니다. 기존 이론에서는 모델 크기를 확대하면 기억 유지, 일반화된 학습, 복잡한 함수를 맞추는 능력이 향상된다고 주장하지만, 실제 결과는 무시된 변수로 인해 예상과 차이가 나는 경우가 많습니다.

메타/

언어 모델은 이름, 속성, 해당 값으로 구성된 튜플로 정보를 구성합니다. 최근 조사에 따르면 이러한 모델이 보유할 수 있는 지식의 양을 조사한 결과, 모든 모델 매개변수에 대해 약 2개의 지식을 수용할 수 있는 것으로 나타났습니다. 훈련에 소요된 시간, 모델의 특정 설계, 압축 정도, 적용된 희소성 제한, 배경 소음에 비해 처리되는 데이터의 선명도 등 다양한 요인이 이 용량에 영향을 미칩니다. Wikipedia와 같이 잘 알려진 출처의 학습 자료를 추가하면 언어 모델이 흡수할 수 있는 사실의 양이 크게 확장되어 풍부한 지식을 보유한 도메인을 인식하고 우선순위를 지정할 수 있습니다.

이 연구는 (미국, 수도, 워싱턴 D.C.)와 같은 튜플 형태의 사실 정보 표현을 중심으로 진행되었으며, 언어 모델이 int8 양자화를 활용하더라도 파라미터당 약 2비트 정도의 지식을 저장할 수 있는 능력을 가지고 있음을 밝혀냈습니다. 또한 학습 데이터세트에 도메인 이름을 통합하면 모델의 지식 용량이 크게 증가하여 언어 모델이 풍부한 지식이 포함된 도메인을 독립적으로 구별하고 우선순위를 지정할 수 있다는 사실도 발견했습니다. 연구진은 훈련 시간, 아키텍처, 양자화, 희소성 제약, 데이터 신호 대 잡음비 등 다양한 매개변수가 모델의 지식 저장 능력에 미치는 영향을 명확히 하기 위해 통제된 테스트를 수행하여 언어 모델을 발전시키고 개선하는 데 필수적인 지침을 제공합니다.

본 조사는 다양한 자연어 처리 작업에서 언어 모델의 전반적인 성능과 효율성을 이해하는 데 기본이 되는 언어 모델의 용량과 관련된 중요한 통찰력을 설명합니다.

GPT2는 다양한 데이터 설정에서 매개변수당 2비트 용량 비율을 일관되게 달성했으며, 이는 7B 모델이 영어 위키백과에 담긴 지식을 능가할 수 있음을 의미합니다. 이 비율을 유지하려면 지식 조각당 1000번의 노출로 훈련 시간을 늘리는 것이 중요합니다. 모델 아키텍처는 용량에 영향을 미치며, 게이트형 MLP로 인해 GPT2가 LLaMA/Mistral보다 성능이 뛰어납니다. int8로 정량화하면 용량이 유지되는 반면, int4는 용량이 감소합니다. 전문가 혼합 모델은 용량이 약간 감소하지만 여전히 효율적입니다. 정크 데이터는 모델 용량을 크게 감소시키지만, 유용한 데이터를 미리 추가하면 이 효과를 완화할 수 있습니다. 이 체계적인 접근 방식은 모델을 정확하게 비교하고 학습 시간, 아키텍처, 정량화 및 데이터 품질과 같은 중요한 측면에 대한 인사이트를 제공합니다. /images/this-ai-paper-from-meta-and-mbzuai-introduces-a-principled-ai-framework-to-examine-highly-accurate-scaling-laws-concerning-model-size-versus-its-knowledge-storage-capacity.png

종합적으로 학습된 변압기 모델은 모델의 규모나 정수 값으로의 정량화와 같은 추가 고려 사항에 관계없이 매개변수당 두 단위의 정보를 보유하는 인상적인 용량을 보여줍니다. 이 발견은 아키텍처 선택부터 활용되는 데이터의 정밀도 수준과 구경에 이르기까지 광범위한 파라미터를 포괄합니다. 제안된 접근 방식은 모델 역량을 평가하고 대조하기 위한 강력한 기반을 제공함으로써 실무자가 모델 선택 및 육성과 관련하여 정보에 입각한 결정을 내릴 수 있도록 돕습니다. 또한, 이러한 탐구 방식은 가장 효과적인 언어 모델 차원을 결정하는 중추적인 문제를 해결하기 위한 견고한 기반을 구축하며, 이는

논문 을 추진하는 데 핵심적인 열쇠가 될 수 있습니다. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 노력에 감사하는 분들을 위해 뉴스레터를 구독해 주시면 더욱 흥미를 유발할 수 있는 최신 개발 및 제공 사항에 대한 정보를 얻을 수 있는 훌륭한 수단이 되므로 진심으로 초대합니다.

4만 명이 넘는 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

인공 지능에 열정을 가진 150만 명 이상의 방대한 잠재 고객에게 도달하는 데 관심이 있으신가요? 저희는 이 역동적인 커뮤니티와 연결하여 귀사의 제품이나 서비스를 소개할 수 있는 기회를 제공할 수 있습니다.함께 협력하여 목표를 달성하고 AI의 세계에서 새로운 차원으로 나아갈 수 있도록 노력합시다.

Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학, Microsoft 등 저명한 기관의 저명한 전문가들이 정기적으로 구독하는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.