Microsoft Orca 2의 승리: 추론 작업 마스터링에서 5-10배 크기의 모델과 비슷하거나 더 뛰어난 성능 제공
매개변수의 확산을 통해 GPT-4 및 PaLM-2와 같은 대규모 언어 모델(LLM)이 지속적으로 확장됨에 따라 특히 제로 샷 추론 영역에서 놀라운 새로운 기능이 등장했습니다. 이러한 모델의 영향력과 잠재력이 계속 커지면서 연구자들은 이러한 모델이 스스로 행동을 조절하거나 다른 인공 지능 시스템의 개발을 유도할 수 있는 잠재력을 탐구하기 시작했습니다.
이전 연구에 따르면 기존 모델에서 출력을 얻는 과정을 통해 학생 모델이 강사의 문체적 특성을 모방할 수 있는 것으로 나타났습니다. 이러한 접근 방식은 교사의 작업의 전반적인 모습을 모방한다는 측면에서 성공적인 결과를 얻을 수 있지만, 그 결과 학생 모델이 보여준 논리적 분석 및 이해 영역에서는 더 광범위한 기초 모델과 비교할 때 결함이 있습니다.
2023년 6월, Microsoft의 한 연구팀은 대규모 기초 모델(LFM)의 논리적 사고 능력을 재현하기 위해 무려 130억 개의 매개 변수를 자랑하는 언어 모델인 Orca를 도입했습니다. 특히 특정 작업에 맞게 미세 조정된 기존 모델과 비교했을 때, Orca는 BigBench Hard 및 AGIEval과 같은 평가에서 우수한 성능을 보여주었습니다.
향상된 추론 능력으로 더 작은 언어 모델 역량 강화." 이 논문에서는 고급 훈련 기법을 활용하여 보다 간결한 언어 모델의 추론 능력을 향상시킬 수 있는 잠재력에 대해 자세히 설명합니다. 실제로 Orca 2는 비슷한 크기의 다른 모델보다 성능이 뛰어나며, 5배에서 10배 크기의 모델과 동등하거나 더 우수한 결과를 제공합니다.
Orca 2의 주요 목표는 다음과 같이 요약할 수 있습니다. 한편으로 개발자들은 점진적 심의 및 검색 후 생산과 같은 다양한 논리적 접근 방식을 소규모 AI 시스템에 적용하고자 합니다. 반대로, 그들은 또한 이러한 동일한 모델이 특정 노력에 가장 유리한 문제 해결 방법론을 식별하도록 지원하여 작은 규모에 관계없이 결과를 최적화하도록 노력합니다.
이전 버전인 Orca 1과 마찬가지로 고급 언어 모델(LLM)을 활용하여 여러 작업에 걸친 다양한 추론 방법론을 시연합니다. 하지만 Orca 2에서는 학생 모델의 한계와 강점을 고려하여 이러한 접근 방식을 각 개별 과제에 맞게 맞춤화하기 위해 세심한 주의를 기울였습니다.
Orca 2는 “즉시 삭제"라는 혁신적인 접근 방식을 채택하여 신중한 분석 시스템을 구현합니다.이 방법론을 구현함으로써 이 모델은 특정 추론 프로세스를 실행할 수 있을 뿐만 아니라 복잡한 작업을 처리할 때 포괄적인 전략을 수립할 수 있습니다. 개발팀은 강력한 대규모 언어 모델의 동작을 무비판적으로 복제하는 대신 각 개별 작업에 가장 관련성이 높고 적절한 동작을 신중하게 선택하고 선택합니다.
최근의 실증 조사에서 저희 팀은 약 100개의 개별 작업과 36,000개 이상의 개별화된 프롬프트를 포괄하는 15개의 다양한 벤치마크에서 Orca 2의 성능을 광범위하게 평가했습니다. 특히 높은 수준의 논리적 추론이 요구되는 복잡한 문제 해결 시나리오에 직면했을 때 Orca 2가 비슷한 규모의 다른 모델과 비교했을 때 동등하거나 그보다 5~10배 큰 규모의 모델을 능가하는 등 상당한 우위를 보인 것으로 나타났습니다.
요약하면, 이 연구는 이 분야에서 중요한 이정표가 될 것이며, 보다 간결한 모델에 추론 기술을 부여하는 것이 가장 중요하다는 점을 강조합니다. 연구진은 이러한 소형 모델의 역량을 강화하면 다양한 배포 환경에서 새로운 애플리케이션을 개발할 수 있을 뿐만 아니라 컴퓨팅 리소스 활용과 기능적 용량의 균형을 맞추는 데 더 큰 유연성을 확보할 수 있을 것이라고 확신합니다.
Orca 2: 작은 언어 모델에 추론하는 방법 가르치기 논문 arXiv .