LLM의 한계를 뛰어넘다: 간단한 스케일링 마법으로 빛을 발하는 업스테이지 AI의 SOLAR 10.7B
최근 언어 모델링 분야의 획기적인 발전으로 수백만 개에서 수십억 개에 이르는 풍부한 파라미터를 갖추고 방대한 텍스트 데이터 배열을 사용하여 학습되는 대규모 언어 모델(LLM)로 알려진 고기능 모델의 개발이 가능해졌습니다. 이러한 LLM은 놀라운 숙련도를 보여줍니다. 그럼에도 불구하고 이러한 발전에는 여러 가지 어려움이 수반되는데, 특히 성능 향상의 규모에 걸맞게 모델의 크기를 지속적으로 확대해야 한다는 점이 가장 큰 문제입니다.
간단하면서도 효과적인 뎁스 업스케일링으로 대규모 언어 모델 확장"에서는 대규모 언어 모델을 향상시키는 데 있어 놀라운 효율성과 단순성을 보여주는 뎁스 업스케일링(DUS)이라는 새로운 접근 방식을 소개하며, 이는 현재 최고의 오픈 소스 최신 모델인 Llama 2 및 Mistral 7B보다 뛰어난 성능을 발휘합니다.
크기 대비 유리한 성능 비율을 달성하기 위해 일반적으로 사용되는 대규모 언어 모델(LLM)을 파레토 최적 곡선을 따라 배치하는 접근 방식을 제안합니다. 기본 모델의 기존 가중치를 활용하고 보다 리소스를 고려한 확대 전략을 채택함으로써 7B 크기의 LLM의 효과를 증폭하는 것을 목표로 합니다.
DistilLearn을 구현하는 과정에는 뛰어난 기본 모델을 선택하고 미리 학습된 가중치를 활용하여 혁신적인 기술을 통해 더 크고 향상된 버전을 만드는 과정이 포함됩니다. 주목할 만한 점은 이렇게 확장된 모델이 대규모 언어 모델(LLM)의 학습 및 추론을 위한 기존 인프라와 효과적으로 병합되어 효율성과 효능을 모두 유지한다는 것입니다.
DistilLearn 언시드 시그니처(DUS) 프로세스의 배포에는 미스트랄 7B 사전 학습이 탑재된 32개의 라마2 레이어로 구성된 기준 아키텍처의 복제가 포함됩니다. 이 초기 단계에 이어, 팀은 기본 모델과 복제본의 해당 레이어에서 최종 8개 레이어를 선택적으로 제거하여 48개의 레이어와 107억 개의 상당한 파라미터로 구성된 SOLAR 10.7B라는 이름의 증강 모델을 완성합니다.
실험적 평가에서 6가지 작업에서 SOLAR 10.7B를 여러 가지 높은 성과를 거둔 모델과 비교했습니다. 특히 주목할 만한 점은 SOLAR 10.7B가 Qwen 14B 및 Mistral 7B와 같은 대규모 사전 학습 모델보다 우수한 성능을 보여 주었으며, 이는 확장을 통해 기본 LLM을 향상시키는 데 있어 DUS가 효과적이라는 점을 강조합니다.또한 SOLAR 10.7B-Instruct는 더 작은 크기에도 불구하고 Mixtral 8x7B Instruct-0.1 및 Qwen 72B와 같은 인기 있는 오픈 소스 LLM을 포함하여 테스트한 모든 모델 중에서 가장 높은 H6 점수를 획득했습니다.
자연어 처리 분야의 협력 정신과 독창성을 장려하기 위해 Upstage AI 작업 그룹은 Apache 2.0 라이선스 조건에 따라 SOLAR라는 이름의 소프트웨어 버전 10.7B를 출시하기로 결정했습니다. 이 오픈 소스 전략을 채택함으로써 이 그룹은 모델에 대한 접근성과 다양성을 높여 전 세계의 연구자와 개발자가 모델을 더 효과적으로 활용할 수 있도록 지원하고자 합니다.
논문 SOLAR 10.7B: 에서 간단하면서도 효과적인 뎁스 업스케일링으로 대규모 언어 모델 확장 arXiv .