Contents

언어 모델 학습 효율성과 효과를 높이기 위한 Rho-1 모델을 소개하는 Microsoft와 칭화대학교의 AI 논문

Contents

특히 언어 처리 영역에서 인공지능은 모델 파라미터 크기와 데이터 세트 규모가 모두 증가하면서 지속적인 발전을 거듭해 왔습니다. 언어 모델 학습에서 주목할 만한 진전은 역사적으로 각 학습 토큰에 적용되는 다음 토큰 예측 작업의 광범위한 활용에 의존해 왔습니다. 그러나 데이터 세트 내의 모든 토큰이 학습 과정에 동등한 기여를 한다는 오랜 전제는 이제 회의론이 커지고 있습니다. 모든 토큰에 대해 일관되게 모델을 학습시킬 경우 심각한 비효율이 발생하며, 이로 인해 수많은 토큰이 모델 성능을 최적화하고 학습 효율성을 향상시키는 데 중추적인 역할을 할 수 있습니다.

기존 연구에는 신중한 데이터 선택과 커리큘럼 방법을 사용하여 언어 모델 학습을 개선하는 것이 포함됩니다. BERT와 같은 모델은 휴리스틱 필터를 사용하여 성능을 최적화하여 데이터 품질과 전반적인 모델 적용 가능성을 개선합니다. 마스크드 언어 모델링(MLM)을 비롯한 새로운 기법은 학습 중에 특정 토큰을 예측하는 데 집중하여 학습 생산성을 증폭시킵니다. 또한, 토큰 수준의 복잡성을 조사하여 교육 궤적에 영향을 미치는 ‘단순한’ 토큰과 ‘복잡한’ 토큰을 정확히 찾아내는 연구도 진행 중입니다. 이러한 초기 조사는 보다 전문화된 방법론의 기초를 형성하여 궁극적으로 언어 모델의 효과와 수완을 모두 보강하는 보다 집중적인 교육 관행으로 이어집니다.

/images/this-ai-paper-from-microsoft-and-tsinghua-university-introduces-rho-1-model-to-boost-language-model-training-efficiency-and-effectiveness.png

앞서 언급한 샤먼 대학교, 칭화 대학교, 마이크로소프트의 연구팀은 언어 모델 학습 프로세스를 최적화하기 위해 선택적 언어 모델링(SLM)을 사용하는 혁신적인 방법론인 RHO-1을 개발했습니다. 학습 중에 각 토큰에 리소스를 일률적으로 할당하는 기존 접근 방식과 달리, RHO-1은 ‘활용도가 높은’ 토큰에 집중하고 다른 토큰은 무시하므로 더 적은 컴퓨팅 리소스를 사용하여 더 효율적으로 학습하고 전반적인 모델 성능을 향상시킵니다.

RHO-1 접근법의 시작은 토큰 유용성을 평가하는 참조 모델을 훈련하기 위해 예외적인 데이터 세트를 활용하는 것입니다. 그런 다음 이 모델은 중요도에 따라 토큰의 등급을 매기므로 매우 구체적인 트레이닝 세션이 가능합니다. 이후 단계에서는 가장 가치 있는 토큰만 트레이닝 절차에 포함됩니다. 이 개념을 실제로 설명하기 위해 약 150억 개의 토큰이 포함된 방대한 OpenWebMath 컬렉션에 RHO-1 기술을 구현했습니다. 결과적으로 이 리소스는 RHO-1 전략의 효과를 판단할 수 있는 탄탄한 토대를 제공합니다.RHO-1은 필수 토큰에만 집중함으로써 계산 자산과 모델 학습 능력을 모두 최적화하여 결과적으로 훈련 단계를 단순화하는 동시에 지정된

/images/this-ai-paper-from-microsoft-and-tsinghua-university-introduces-rho-1-model-to-boost-language-model-training-efficiency-and-effectiveness-1.png

RHO-1 아키텍처 내에서 선택적 언어 모델링(SLM)을 사용하면 성능이 크게 향상되었습니다. 예를 들어, RHO-1-1B 버전은 9가지 수학 과제에서 OpenWebMath 말뭉치로 훈련했을 때 소수점 정확도가 30%까지 향상되었습니다. 또한 미세 조정을 수행한 후 RHO-1-1B는 까다로운 수학 데이터 세트에서 40.6%라는 인상적인 점수를 획득했습니다. 또한, 더 광범위한 RHO-1-7B 모델은 동일한 데이터 세트에서 51.8%의 뛰어난 정확도를 달성했습니다. 놀랍게도 이 모델들은 기준 성능을 달성함으로써 기존 접근 방식으로 학습된 모델을 능가했습니다.

/images/this-ai-paper-from-microsoft-and-tsinghua-university-introduces-rho-1-model-to-boost-language-model-training-efficiency-and-effectiveness-2.png

요약하면, 이 연구는 선택적 언어 모델링 기술을 활용하여 샤먼 대학교, 칭화 대학교 및 Microsoft의 공동 노력을 통해 만들어진 RHO-1 모델을 소개합니다. 이 접근 방식은 활용도가 높은 토큰에 집중하여 효율성을 높이고 정확도를 향상시키는데, OpenWebMath 데이터 세트에서 달성한 긍정적인 성능 향상에서 볼 수 있듯이 그 결과입니다. 이러한 결과는 학습 중 목표 토큰 선택이 학습 과정을 가속화하고 AI 모델의 정밀도를 향상시킬 수 있음을 시사하며, 인공지능 분야에서 제안된 선택적 언어 모델링 방법론의 중요성을 강조합니다.

논문 Github 를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 노력에 감사하는 분들께 뉴스레터 구독을 권해드리며, 이는 저희의 뛰어난 콘텐츠에 더욱 빠져들고 최신 노력에 대한 정보를 계속 접할 수 있는 좋은 기회이므로 진심으로 초대합니다.

머신러닝 서브 레딧에서 40,000명 이상의 회원으로 구성된 광범위한 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

인공 지능에 열광하는 150만 명 이상의 방대한 잠재 고객에게 도달하는 데 관심이 있으신가요? 기꺼이 여러분과 협력하여 이 기회를 마련할 수 있도록 도와드리겠습니다.

구글, 엔비디아, 메타, 스탠포드 대학교, 매사추세츠 공과대학(MIT), 마이크로소프트 등 저명한 기관의 전문가들이 열성적으로 구독하는 활발한 AI 연구 뉴스레터를 받아보세요.