Microsoft Research, 언어, 양식, 모델 및 작업 전반에 걸쳐 대규모 언어 모델을 벤치마킹할 수 있는 '메가버스' 소개
대규모 언어 모델(LLM)은 다양한 작업과 벤치마크에서 이전 세대의 언어 모델보다 우수함을 입증했습니다. 어떤 경우에는 이러한 모델이 인간 수준의 성능에 근접하거나 이를 뛰어넘는 경우도 있습니다. 그러나 이러한 성과가 모델 아키텍처의 발전 때문인지, 아니면 테스트 데이터의 편향이나 정확한 평가를 위한 데이터 세트 부족과 같은 다른 요인 때문인지 구분하기는 어려울 수 있습니다. 따라서 신뢰할 수 있는 역량 측정을 보장하기 위해 LLM의 역량을 조사하는 데 점점 더 많은 관심이 집중되고 있습니다.
인간 평가, 특정 능력에 대한 정성적 테스트, 벤치마킹 등 대규모 언어 모델(LLM)을 평가하기 위해 수행된 대부분의 조사는 주로 영어를 중심으로 이루어졌습니다. 이러한 연구를 통해 다른 언어와 달리 영어에 대한 LLM의 숙련도에는 주목할 만한 차이가 있음이 밝혀졌습니다. 그럼에도 불구하고 영어 이외의 언어로 LLM의 성과를 측정하는 데는 논리적 사고, 담화, 다양한 언어 그룹에 걸친 상호 교류에 대한 이중 언어 또는 다국어 벤치마크가 부족하다는 점 등 몇 가지 어려운 장애물이 존재합니다.
MEGA와 관련된 선행 연구에서 도출된 결과는 LLM과 같은 대규모 언어 모델의 언어적 숙련도에 관한 풍부한 정보를 제공합니다. TULRv6와 같은 최첨단 전문 언어 모델과 비교할 때 GPT-4는 인상적인 수준의 역량을 입증했습니다. 그럼에도 불구하고 GPT 모델은 특히 자원이 부족한 언어나 특정 아프리카 및 아시아 언어와 같이 비라틴 문자를 사용하는 언어 시스템에 맞게 조정할 경우 최적의 결과를 보여주지 못하는 경향이 있음을 인식하는 것이 중요합니다.
Microsoft Corporation의 연구팀은 MEGA 벤치마크를 활용하고 6개의 추가 데이터 세트를 추가하여 자원이 부족한 수많은 아프리카 언어를 포함하여 총 22개의 서로 다른 데이터 세트와 83개의 고유 언어를 포함하도록 분석을 확장했습니다.
이 연구는 개발 및 연구 분야의 실무자에게 주목할 만한 관찰 결과를 제공합니다. 특히, 저자원 언어에 적용했을 때 GPT-4 및 Gemini-pro와 같은 대형 상용 모델이 Gemma, Llama, Mistral과 같은 소형 모델에 비해 우수한 성능을 보인다는 사실을 발견했습니다. 또한 이러한 경향은 조사 대상 데이터 세트의 상당 부분에서 일관되게 관찰되었으며, 이는 규모가 작은 모델이 적절한 다국어 숙련도를 제공하는 데 어려움을 겪고 있음을 의미합니다.따라서 전반적인 다국어 성능을 향상시키기 위해서는 미세 조정, 언어군 중심 모델, 언어별 설계 등 추가적인 방법을 모색하는 것이 현명할 것으로 보입니다.
멀티모달 데이터 세트와 관련하여 당사 모델은 멀티모달 작업의 성능 측면에서 LLaVA와 Gemini-Pro-Vision 모두보다 우수한 성능을 보였습니다. 이는 토큰화 프로세스의 품질에 크게 의존하는 언어 모델의 아키텍처가 효과적이기 때문일 수 있습니다. 실제로 이 연구에서 사용된 다양한 토큰화 도구의 다산성을 철저히 분석한 결과, 영어와 스페인어와 같은 라틴 문자 언어용으로 설계된 토큰화 도구는 텔루구어, 말레이어, 말라얄람어와 같은 보다 복잡한 언어 시스템을 위해 개발된 토큰화 도구에 비해 낮은 수준의 다산성을 보이는 경향이 있는 것으로 밝혀졌습니다.
계산 자원의 내재적 한계와 시간 제약으로 인해 본 연구는 다양한 데이터 세트에서 가능한 70억 개의 모델 변형 하위 집합을 분석하는 것으로 제한되었습니다. 안타깝게도 이러한 제약으로 인해 사용 가능한 모든 데이터 세트를 조사할 수 없었습니다. 또한 데이터 세트 오염 문제는 비영어권 데이터 세트를 사용하여 벤치마킹 연구를 수행할 때 상당한 문제를 야기합니다. 연구 결과에 따르면 압도적으로 많은 상용 및 오픈 소스 모델이 훈련 목적으로 메가버스 데이터셋을 활용하는 데 크게 의존하고 있는 것으로 나타났습니다. 그러나 대규모 언어 모델의 학습 요법에 새로 구축된 다국어 평가 데이터세트를 통합하는 것은 경제 및 자원 부족을 고려할 때 엄청난 장애물을 안고 있습니다. 이러한 문제를 고려할 때, 우리의 목표는
논문 을 확인하여 인식 및 완화하는 능력을 향상시키는 것입니다. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들께는 최신 노력과 제품에 대한 정보를 제공하는 훌륭한 리소스인 뉴스레터 구독을 진심으로 권해드립니다.
4만 명 이상의 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
인공 지능에 관심이 있는 150만 명의 방대한 잠재 고객에게 다가가고 싶으신가요? 유니티는 이러한 목표를 달성하는 데 도움이 되는 서비스를 기꺼이 제공합니다.
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학(MIT), Microsoft 및 기타 수많은 권위 있는 기관의 해당 분야 전문가들이 구독하는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.