Contents

화웨이 연구원들이 PanGu-π Pro로 규칙을 다시 쓰려고 합니다: 초효율적인 초소형 언어 모델의 시대가 열렸습니다!

Contents

북경대학교 및 화웨이 소비자 비즈니스 그룹과 협력하여 화웨이 노아의 방주 연구소가 주도한 선구적인 연구에서 모바일 장치에 배포하기 위해 특별히 맞춤화된 소형 언어 모델(TLM)을 만드는 혁신적인 방법론을 도입했습니다. 이러한 소형 모델은 보다 실질적인 버전과 비슷한 수준의 효율성을 달성하여 리소스가 제한된 환경 내에서 고급 인공 지능 애플리케이션의 필수 요건을 효과적으로 충족하는 것을 목표로 합니다.

본 연구에서는 휴대용 기기 내에서 원활한 통합을 위해 광범위한 언어 프레임워크를 적용하는 중요한 문제를 해결하고자 했습니다. 현재 널리 사용되는 거대한 언어 모델은 인상적인 기능을 제공하지만, 스마트폰과 유사한 휴대용 기기에서 광범위하게 구현하기에는 컴퓨팅 리소스와 메모리 할당 측면에서 너무 번거로운 것으로 나타났습니다. 이러한 딜레마에 대응하기 위해 저희 그룹은 고심 끝에 고안한 구조와 최첨단 훈련 기법을 사용하여 리소스 소비를 최소화하면서 뛰어난 성능을 제공하는 전위적인 미니어처 언어 모델인 PanGu-π Pro를 개발했습니다.

이러한 접근 방식의 근간에는 모델을 구성하는 부품의 최적화된 설계가 있습니다. 연구진은 일련의 경험적 조사를 통해 모델의 전반적인 성능에 미치는 다양한 요인의 영향을 분석했습니다. 이 과정에서 달성한 인상적인 성과는 토큰화기의 효율적인 압축으로 언어 이해와 생성 기능은 그대로 유지하면서 모델의 크기를 대폭 줄인 것입니다. 또한 보다 광범위한 모델에서 파라미터를 전송하고 효과적인 지식 습득을 촉진하는 다단계 훈련 요법과 같이 모델의 기능을 가속화하기 위해 주요 아키텍처 수정이 구현되었습니다.

/images/huawei-researchers-tries-to-rewrite-the-rules-with-pangu-cf80-pro-the-dawn-of-ultra-efficient-tiny-language-models-is-here.png /images/huawei-researchers-tries-to-rewrite-the-rules-with-pangu-cf80-pro-the-dawn-of-ultra-efficient-tiny-language-models-is-here-1.png

1B 및 1.5B 파라미터 버전이 모두 포함된 판구 프로의 공개는 이 분야에서 상당한 혁신을 의미합니다. 혁신적인 훈련 방법론을 고수하는 이 모델들은 1.6테라바이트의 방대한 다국어 데이터 세트를 사용하여 학습되었습니다. 다양한 평가 세트에서 평균 8.87%의 인상적인 향상을 보인 Pangu Pro - 1B의 결과는 놀랍기 그지없었습니다. 또한 Pangu Pro - 1.5B는 크기 면에서 현재의 최신 모델을 뛰어넘어 더욱 컴팩트한 언어 모델 내에서 탁월한 성능에 대한 새로운 기준을 세웠습니다.

화웨이 팀의 획기적인 성과는 모바일 기술의 경계를 뛰어넘어, 작은 장치 크기와 강력한 기능으로 인한 제약을 능숙하게 해결함으로써 컴퓨팅 자원이 제한적인 다양한 상황에서 인공 지능을 통합할 수 있는 새로운 기회를 열어주었습니다. 이러한 선구적인 노력은 고급 AI 애플리케이션에 대한 광범위한 접근성을 촉진할 뿐만 아니라 뛰어난 성능을 유지하면서 효율성을 최적화하기 위해 언어 모델을 미세 조정하는 후속 연구의 훌륭한 모델이 될 것입니다.

이 연구 결과는 창의적인 전략을 통해 기존의 기술적 제약을 뛰어넘을 수 있는 인공지능(AI)의 잠재력을 보여줍니다. 화웨이 팀의 획기적인 연구는 AI에 대한 우리의 이해를 변화시키고, 일상 생활에 더욱 널리 퍼지고 원활하게 통합되어 일상 생활에서 AI의 존재감을 강화할 수 있는 힘을 가지고 있습니다. 발전이 계속됨에 따라 이 연구에서 얻은 인사이트는 모든 사용자의 이익을 위해 유연성, 효율성 및 보편성을 개선하여 AI 개발의 궤적을 형성할 것입니다.

논문 Github 를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터와 Google 뉴스 를 팔로우하는 것도 잊지 마세요. 36k\\+ ML 서브 레딧, 41k\\+ 페이스북 커뮤니티, 디스코드 채널, 링크드인 Gr 에 가입하세요.

저희의 노력에 감사하는 분들을 위해 뉴스레터를 구독해 주시기 바랍니다. 뉴스레터는 여러분의 관심을 불러일으킬 만한 최신 노력과 업데이트에 대한 정보를 얻을 수 있는 훌륭한 수단이기 때문입니다.

텔레그램 채널에 가입하는 것을 잊지 마세요

LLMWare는 다단계 자동화 작업을 용이하게 하도록 설계된 소형 특수 기능 호출 모델인 SLIM이라는 새로운 제품을 출시했습니다. 이 모델은 다양한 프로세스를 간소화하고 복잡한 워크플로를 단순화할 수 있는 효율적인 솔루션을 제공합니다. 다양한 SLIM 모델을 살펴보려면 웹사이트를 방문하세요.