Microsoft에서 제작한 '교과서 수준의' 데이터로 10배 작지만 강력한 코드용 언어 모델을 학습하는 데 필요한 모든 것
대규모 인공 신경망의 최적화는 정교함이 요구되는 기술입니다. 잘 알려진 훈련 데이터는 대규모 모델의 성능을 향상시키는 데 중요한 역할을 하며, 모델과 관련 데이터 집합 간의 확장성 관계에도 영향을 미칠 수 있다는 사실이 입증되었습니다.
Microsoft의 한 팀은 최근 발표한 “교과서만 있으면 된다"라는 제목의 논문에서 설명한 것처럼 코딩 목적의 중요한 언어 모델을 학습하기 위해 ‘교과서 수준의’ 데이터를 생성하는 새로운 방법론을 활용했습니다. 이 기술을 통해 총 13억 개에 불과한 비교적 적은 매개변수에도 불구하고 인상적인 성능을 자랑하는 매우 효과적인 파이-1 모델을 만들 수 있었습니다.
이 연구는 코딩 목적의 언어 모델을 훈련하기 위한 것으로, 기존의 확장성 한계를 극복할 수 있는 뛰어난 데이터의 잠재력을 입증하는 것을 목표로 합니다.
연구자들은 크기를 줄이면서 보다 효율적인 언어 모델을 훈련하는 데 사용할 수 있는 고품질 데이터를 생성하는 방법을 제시합니다. 이를 위해 연구진은 GPT-4라는 트랜스포머 기반 분류기를 사용해 공개 도메인에서 사용할 수 있는 Python 코드 데이터 세트의 하위 집합, 특히 프로그래밍 기초를 배우는 학생들을 대상으로 하는 스택 오버플로 포럼의 교육용 콘텐츠가 포함된 데이터 집합을 선택합니다. 또한, 프롬프트에 무작위성을 도입하여 생성된 데이터 세트가 다양하고 반복되지 않도록 보장합니다.
연구진은 디코더 전용 트랜스포머를 모델의 기초로 활용했으며, 그 결과 phi-1이라는 13억 개의 매개변수 엔티티가 생성되었습니다. 이 모델은 24개의 레이어로 구성되며, 각 레이어에는 2,048개의 숨겨진 유닛과 MLP 내부 차원에 추가로 8,192개의 유닛과 32개의 주의 헤드가 포함되어 있습니다. 파이-1 베이스는 처음에 코드텍스트북 데이터세트로 훈련한 후 미세 조정을 거쳐 최종 파이-1 모델을 얻었습니다.
또한 미세 조정을 통해 모델 아키텍처의 명확성과 Pygame 및 Tkinter와 같은 외부 라이브러리를 통합할 수 있는 능력이 크게 향상되는 것으로 입증되었습니다.
실험 결과에 따르면 Phi-1은 HumanEval에서 50.6%, MBPP에서 55.5%의 Pass@1 정확도를 달성한 것으로 나타났습니다. 이러한 성능은 13억 개의 매개변수만 보유하고 있고 데이터 세트 크기를 크게 줄여서 학습했음에도 불구하고 코딩 평가에서 대부분의 오픈 소스 모델을 능가하는 것입니다.
본 연구는 대규모 언어 모델 훈련의 맥락에서 고품질 데이터 세트를 생성하는 효과적인 기법을 개발하는 것의 중요성을 강조하며, 이러한 방법은 언어 모델의 표현 능력을 확장하는 데 중요한 잠재력을 가지고 있습니다.
논문 교과서만 있으면 된다 arXiv .