Contents

정밀 코딩의 재정의: 미세 조정된 LLM 모델 성능을 위한 Microsoft WaveCoder의 선구적인 접근 방식

Contents

최근에는 ChatGPT와 GPT-4를 비롯한 대규모 언어 모델이 자연어 처리 작업에서 탁월한 능력을 발휘하고 있습니다. 고품질의 명령어 데이터 세트를 활용하여 이러한 모델을 미세 조정하는 과정은 모델의 능력을 크게 향상시키는 것으로 밝혀졌습니다. 하지만 안타깝게도 명령어 데이터세트 자료를 생성하는 기존의 접근 방식은 중복된 정보와 데이터 품질에 대한 통제력 부족으로 인해 종종 문제가 발생합니다.

정교한 데이터 생성을 통한 광범위하고 다재다능한 향상된 명령어 튜닝"에서 Microsoft Research 그룹은 네 가지 다양한 프로그래밍 작업에 걸친 20,000개의 명령어 예제로 구성된 광범위한 데이터 세트인 CodeOcean을 소개합니다. 코드오션은 소스 코드를 활용하여 데이터 충실도를 더욱 정밀하게 조절할 수 있게 함으로써 정교하게 조정된 대규모 언어 모델(LLM)의 일반화 학습 능력을 향상시킵니다.

/images/precision-coding-redefined-microsoft-wavecoders-pioneering-approach-to-fine-tuned-llm-model-performance.png

이 연구의 핵심 목표는 학습 절차를 최적화하여 다양한 프로그래밍 작업을 완료하는 데 있어 대규모 언어 모델의 효율성을 향상시키는 것입니다. 이러한 작업의 다면적인 특성을 탐구하기 위해 코드 요약, 코드 생성, 코드 번역, 코드 복구 등 코드와 관련된 세 가지 일반적인 생성 작업(코드 대 텍스트 번역, 텍스트 대 코드 생성, 코드 대 코드 합성)과 관련이 있고 보편적인 네 가지 코딩 과제를 선택했습니다.

/images/precision-coding-redefined-microsoft-wavecoders-pioneering-approach-to-fine-tuned-llm-model-performance-1.png

제안된 방법론은 원시 소스 코드를 수집한 다음 언어 모델(LLM)에 기반한 혁신적인 생성기-판별기 프레임워크를 활용하여 교육 정보를 생성하고 재구성하는 과정을 포함합니다. 이 프레임워크를 활용하면 레이블이 지정되지 않은 광범위한 오픈 소스 코드 리소스를 활용하여 감독된 교육 자료를 제작할 수 있습니다. 이 전략은 생성된 데이터의 다양성이 교육용 LLM의 잠재력에만 의존하지 않도록 보장합니다.

/images/precision-coding-redefined-microsoft-wavecoders-pioneering-approach-to-fine-tuned-llm-model-performance-2.png

생성 단계에서 GPT-4는 특정 맥락에서 운영 청사진을 개발하는 데 활용됩니다. 이 청사진은 전제 조건과 함께 생산 지침에 통합됩니다. 우리 팀은 GPT-3.5의 제한된 샘플 용량 숙련도를 활용하여 처리되지 않은 소스 코드를 자료로 활용하고 최적 및 차선의 예시 인스턴스를 직접 선택하여 커리큘럼 조정에 필요한 필수 정보를 도출합니다.

판별자 단계에서는 교육 콘텐츠와 관련된 잘 정의된 일련의 표준이 제시되며, 개별 교육 사례의 장점을 측정하는 데 GPT-4가 활용됩니다. 이후 이러한 사례는 모범 사례 또는 표준 이하 사례로 분류되며, 각 사례는 다음 세대의 반복 작업에서 중요한 참고 자료로 사용됩니다. 이러한 포괄적인 방법론을 채택함으로써 교육 자료를 효과적으로 생성하고 비판적으로 평가하여 구성 요소 전반에 걸쳐 높은 수준의 품질을 유지하는 강력하고 다양한 교육 코퍼스를 생성할 수 있습니다.

/images/precision-coding-redefined-microsoft-wavecoders-pioneering-approach-to-fine-tuned-llm-model-performance-3.png /images/precision-coding-redefined-microsoft-wavecoders-pioneering-approach-to-fine-tuned-llm-model-performance-4.png

실험적 조사에서는 두 가지 저명한 코드 생성 벤치마크인 HumanEval과 MBPP를 사용하여 지시된 모델과 비교하여 WaveCoder의 성능을 평가했습니다. 그 결과, 20,000개 미만의 인스턴스 명령어 튜닝 데이터에 액세스할 수 있음에도 불구하고 WaveCoder가 다른 모델을 능가하는 것으로 나타났습니다. 또한 세밀하게 튜닝된 다각적인 명령어 세트를 활용하면 명령어 튜닝 프로세스가 더 효율적으로 이루어짐이 분명해졌습니다.

WaveCoder는 코드 복구 및 요약 기능과 관련하여 다른 오픈 소스 솔루션에 비해 주목할 만한 이점을 보여줍니다. 다양한 벤치마크에서 이 모델의 인상적인 성능은 명령어 데이터 생성 및 알고리즘 정제 영역에서 상당한 영향력을 발휘하고 있음을 반영합니다.

논문 WaveCoder: 정제된 데이터 생성을 통한 광범위하고 다재다능한 향상된 명령어 튜닝 arXiv .