다운스트리밍 성능 분석을 통해 대규모 언어 모델(LLM) 사전 학습을 탐색하는 AI 연구
대규모 언어 모델(LLM)은 창작 및 소프트웨어 개발과 같은 다양한 영역에서 복잡한 인지 과정을 처리할 수 있는 능력으로 인해 널리 인기를 얻고 있습니다. 하지만 이러한 모델은 특히 광범위한 학습 데이터 세트를 사용할 때 구축과 미세 조정을 위해 상당한 컴퓨팅 리소스를 필요로 합니다.
연구자들은 스케일링 방정식을 제시함으로써 사전 훈련 손실과 계산 비용 간의 상관관계를 밝혀내고 지출을 최소화하는 데 목표를 두었습니다. 이러한 공식은 최소한의 계산 리소스로 모델을 최적화하는 데 유용한 통찰력을 제공했지만, 최근 연구에 따르면 특히 다운스트림 작업을 고려할 때 대규모 언어 모델(LLM)의 숙련도를 불완전하게 표현할 수 있다고 합니다. 따라서 이 영역에 대한 평가 방법론을 개선하는 것이 필수적인 것으로 간주됩니다.
최근 한 연구 그룹에서 일반 대중이 이용할 수 있는 다양한 대규모 언어 모델(LLM)의 동작을 분석했는데, 여기에는 Yi-34B, Baichuan-7B, DeepSeek-7B, Amber7B, OpenLLaMA-7B, DeepSeek-67B 등이 포함되었습니다. 사전 훈련된 토큰의 수에 따른 중간 마일스톤을 활용하여 다양한 작업에 걸쳐 평가를 실시했습니다.
스케일링 법칙의 기본 원칙에 따라 저희 연구 그룹은 다양한 다운스트림 애플리케이션에서 이러한 모델 아키텍처의 동작에 대해 광범위한 조사를 수행하여 아래에 제시할 세 가지 중요한 인사이트를 확인했습니다.
연구팀은 훈련을 통해 도메인 내에서 보이지 않는 작업을 기존 다운스트림 작업의 역학을 기반으로 예측할 수 있다는 사실을 발견했습니다. 즉, 알려진 작업에 대한 모델의 현재 성능이 동일한 도메인에서 유사하지만 알려지지 않은 작업에 대해 얼마나 잘 수행할지에 대한 인사이트를 제공할 수 있다는 의미입니다. 또한 교차 도메인 기술 개발은 커리큘럼 학습을 통해 인간의 인지 과정처럼 기본 수준에서 고급 수준으로 발전합니다. 한 영역에서 습득한 지식은 다른 영역의 학습을 촉진할 수도 있으며, 그에 따라 모델 학습이 진행됩니다. 또한 훈련 전략, 데이터 세트 품질, 학습 속도 수정, 배치 크기, 정규화 기법, 모델 규모 등 다양한 요소가 특히 초기 훈련 단계에서 LLM의 학습 효율에 영향을 미칩니다.마지막으로 연구팀은 추론 작업을 수행하는 모델의 능력이 모델의 크기와 복잡성에 따라 달라진다는 사실을 발견했습니다.
연구진은 확장성 원리에 대한 이해를 높이고 매우 효과적인 대규모 언어 모델(LLM) 학습 전략의 수립을 촉진하기 위해 Amber-7B와 OpenLLaMA-7B의 중간 마일스톤을 공개하겠다고 발표했습니다. 궁극적으로 이러한 결과와 접근 가능한 체크포인트의 공개는 개발자가 LLM을 최적화하는 과정을 파악하고 기초 모델의 출현을 촉진하는 데 도움이 될 것으로 기대됩니다.
논문 를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
최신 성과와 업데이트에 대한 정보를 적시에 확인할 수 있는 훌륭한 플랫폼인 뉴스레터를 구독해 주시면 감사하겠습니다.
현재 39,000명이 넘는 회원 수를 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학, Microsoft 등 이 분야의 저명한 기관의 저명한 전문가들이 열독하는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.