선택적 언어 모델링: 새로운 방법으로 더 적은 데이터로 더 나은 모델링 가능
요약
연구원들은 가장 관련성이 높은 토큰에 집중하여 언어 모델 학습의 효율성을 향상시켜 성능을 개선하고 필요한 계산 리소스를 줄이는 “선택적 언어 모델링"이라는 새로운 접근법을 개발했습니다.
Microsoft, 샤먼 대학교, 칭화 대학교의 연구진이 최근 발표한 논문에서는 선택적 언어 모델링(SLM)이라는 새로운 접근 방식을 구현하여 계산 효율성이 눈에 띄게 향상되었음을 입증했습니다. 주어진 텍스트 데이터 세트 내의 각 토큰을 동일한 중요도로 취급하는 기존 방식과 달리, SLM은 학습 목적에 특히 관련성이 있다고 판단되는 토큰에만 집중합니다.
토큰 수준에서 훈련 과정을 처음 분석했을 때, 연구자들은 토큰 범주에 따라 손실이 크게 달라지는 것을 관찰했습니다. 어떤 토큰은 모델이 빠르게 습득하는 반면, 어떤 토큰은 오랜 훈련 후에도 여전히 학습하기 어려운 것으로 나타났습니다.
이러한 결과를 바탕으로 연구진은 3단계 프로세스를 개발했습니다:
1. 먼저, 수학과 같이 수동으로 필터링된 고품질 데이터 세트로 참조 모델을 학습시킵니다.
2. 그런 다음 참조 모델을 사용하여 관련 없는 토큰이 많이 포함된 전체 훈련 말뭉치의 각 토큰에 대해 손실을 계산합니다.
3. 그런 다음 실제 언어 모델은 참조 모델과 현재 모델의 손실 간에 큰 차이를 보이는 토큰에 대해 선택적으로 훈련됩니다.
이미지: Microsoft 문서 공유
수학적 예시에서 “2 \+ 2는 4와 같다”, “sin(x)의 도함수는 cos(x)이다"와 같은 표현식 내의 어휘 단위는 참조 프레임워크의 기존 지식 기반과 조화를 이루기 때문에 상대적으로 낮은 난이도 점수를 할당받습니다. “예외적인 보험 혜택을 보려면 이 링크를 클릭하세요"와 같은 문장에서 발견되는 어휘 단위는 수학과의 상관관계가 없기 때문에 훨씬 더 높은 난해도 등급을 받습니다.
고전적인 필터링 기술은 일반적으로 클래스 레이블이 없거나 잘못된 인스턴스를 식별하고 제거하는 데 효과적이지만, 중요한 정보와 불필요한 정보가 모두 포함된 인스턴스를 구별하는 데는 어려움을 겪을 수 있습니다. 예를 들어 “농장에 암탉 35마리(4월 12일 1:24)와 돼지 12마리가 있다"라는 문장을 생각해 보세요.##davidjl123은 총 47마리의 동물이 있다고 말합니다.” 여기서 텍스트는 해당 부동산에 서식하는 동물의 수에 대한 중요한 데이터와 날짜, 사용자 이름, 맞춤법 오류(“합계”)와 같은 덜 중요한 세부 정보를 전달합니다. 토큰 수준의 작업을 감안할 때, 우리가 제안한 방법론은 문장의 어느 부분이 학습 과정에 가장 중요한지 식별하고 그에 따라 리소스를 할당할 수 있습니다.
이 접근 방식을 사용하면 시스템은 지정된 작업에서 최적의 성능을 달성하는 데 가장 중요한 토큰을 식별하고 우선순위를 지정할 수 있습니다.
선택적 언어 모델링으로 더 빠르게 학습하고 정확도 향상
확률적 계층 매핑(SLM)을 활용한 실험에서 학습 속도와 성능 정확도가 모두 크게 향상되는 것을 관찰했습니다. 특히 10억 개의 파라미터가 포함된 RHO-1 모델에 SLM을 적용했을 때, GSM8K와 MATH 등 여러 벤치마크에서 정확도가 16% 이상 크게 향상되었습니다. 또한, 기본
을 달성하는 데 필요한 시간은 상당히 확장된 70억 개의 매개변수 버전의 RHO-1을 활용하여 5000억 개의 토큰 입력을 사용하여 세심하게 훈련된 DeepSeekMath 모델에서 얻은 결과와 거의 구별할 수 없는 결과를 도출해 냈습니다. 이 놀라운 성과는 단 150억 개의 훈련 토큰으로 달성되었습니다. 그 후 철저한 미세 조정 과정을 거쳐 SLM 모델은 이전의 모든 최첨단 성과를 뛰어넘었으며, 까다로운 수학 데이터 세트에 적용했을 때 해당 분야의 리더로 자리매김했습니다.
추천
대칭 언어 모델링(SLM)을 Tinyllama-1B 모델에 적용하면 다양한 영역에서 전반적인 성능이 통계적으로 유의미하게 향상된다는 경험적 증거가 있습니다. 특히, 학습 중에 800억 개의 토큰을 통합한 결과, 이 접근 방식은 15개의 개별 벤치마크에서 평균 6.8%의 성능 향상을 가져왔습니다. 특히 코드 및 수학 공식과 관련된 작업에서 가장 큰 개선이 관찰되었으며, 10% 이상의 괄목할 만한 급증이 있었습니다.
연구자들은 목표 확률 분포와 관련성이 있는 토큰을 인식하는 능력에 대해 확률적 선 수정(SLM)의 효과를 인정했습니다. 연구진은 이 기술을 통해 개인화된 인공 지능 모델을 신속하고 경제적으로 개발할 수 있을 뿐만 아니라 SLM을 이용한 미세 조정을 통해 메타의 라마 3와 같은 오픈 소스 프로젝트를 향상시킬 수 있을 것으로 기대하고 있습니다.
자세한 정보, 코드 및 RHO-1 모델은 GitHub 에서 확인할 수 있습니다.