Contents

사전 학습된 LLM을 새로운 언어에 적용하는 머신러닝 방법을 제시하는 삼바노바의 AI 논문

Contents

이러한 모델 중 상당수는 주로 일반적으로 사용되는 제한된 수의 언어로 훈련되어 아직 미지의 영역으로 남아 있는 광대한 언어적 다양성을 무시하고 있습니다. 이러한 간과는 첨단 언어 기술의 광범위한 보급을 방해할 뿐만 아니라 언어적으로 다양한 인구 간의 기술 격차를 더욱 심화시킵니다.

이 연구 노력에서 우리는 기존의 뛰어난 언어 모델의 기능을 활용하여 덜 널리 사용되는 언어에 맞게 맞춤화하는 혁신적인 인공 지능 기술인 삼바링고(SambaLingo)를 소개합니다. 기존 모델이 제공하는 강력한 기반을 활용하여 이러한 모델을 대상 언어의 고유한 언어적 특징에 맞게 조정함으로써 특정 문맥 내에서 성능을 향상시키려고 노력합니다.

이전에는 이 문제를 해결하기 위해 처음부터 모놀리식 다국어 또는 언어별 모델을 개발하는 데 중점을 두었습니다. 그러나 이러한 방식은 다국어에 대한 부담, 제한된 데이터 가용성, 상당한 계산 요구 사항 등 여러 가지 문제에 직면합니다. 최근에는 영어 기반 모델을 다른 언어와 함께 사용할 수 있도록 번역하는 방법이 처음부터 학습된 언어별 모델을 능가하는 능력을 보여주며 대안적인 접근 방식으로 가능성을 보여주고 있습니다.

이 조사는 모국어 영역에서 뛰어난 숙련도를 자랑하는 모범적인 언어 모델, 즉 영어에 대한 전문성으로 유명한 오픈 소스 Llama2 7B 시스템을 식별하는 것으로 시작되었습니다.

대상 언어의 복잡한 언어학을 적절히 포괄하기 위해 연구자들은 대상 언어에서 파생된 중복되지 않는 토큰을 통합하고 기본 토큰화기에서 추출한 하위 단어 임베딩으로 채워 모델의 어휘를 보강했습니다. 이 중요한 절차는 모델이 새로운 언어를 정확하게 분할하고 표현할 수 있는 능력을 보장하여 통합을 향한 원활한 전환을 촉진합니다.

연구자들은 컬투라엑스에서 얻은 영어와 대상 언어 인터넷 데이터를 세심하게 조합하여 모델에 제공함으로써 지속적인 사전 훈련 방법론을 활용했습니다. 이 데이터 혼합은 모델의 현재 전문성을 유지하면서 새로운 언어 환경에 적응하는 것 사이의 복잡한 균형을 맞추기 위해 목표 언어에 유리한 1:3 비율에 따라 구성되었습니다.

모델의 인간 선호도와의 호환성을 최적화하기 위해 감독을 통한 미세 조정과 직접 선호도 최적화로 구성된 2단계 접근 방식을 채택했습니다.첫 번째 단계에서는 미세 조정을 위해 기계 생성 번역 데이터와 함께 울트라챗 200만 개의 데이터 세트를 사용했습니다. 그 후 두 번째 단계에서는 울트라 피드백 및 카이-대화 무해 데이터 세트를 사용하여 직접 선호도 최적화를 수행했으며, 영어 데이터와 기계 번역 데이터를 10:1의 비율로 결합했습니다.

/images/this-ai-paper-from-sambanova-presents-a-machine-learning-method-to-adapt-pretrained-llms-to-new-languages.png

연구자들은 언어 모델링, 번역, 텍스트 분류, 개방형 및 폐쇄형 질문 답변, 그리고 표 1에 제시된 것처럼 여러 작업과 언어에 걸쳐 삼바링고 모델에 대한 종합적인 평가를 실시했으며, 몇 가지 주요 자연어 이해 벤치마크를 포함했습니다. 언어적으로 다양한 9개 언어, 즉 아랍어, 태국어, 터키어

삼바링고 모델은 여러 벤치마크에서 일관된 결과를 통해 입증된 것처럼 다양한 언어에서 현재의 최신 모델에 비해 우수한 성능을 입증했습니다. 특히 언어 모델링 숙련도를 측정하는 난해성 지표에서, 평가 목적으로 유지된 데이터 세트 하위 집합에 대해 이전의 모든 기준선보다 낮은 점수를 기록했습니다(그림 1 참조). 또한 700억 개의 파라미터가 포함된 광범위한 Llama2 프레임워크로 확장했을 때, 삼바링고 모델은 더 적은 수의 토큰을 사용하여 학습되었음에도 불구하고 여러 평가에서 70억 개의 파라미터를 초과하여 성능이 더욱 향상되었습니다.

모델 출력의 우수성과 인간의 기대치에 부합하는지 확인하기 위해, 실제 사용자 쿼리에 대한 모델의 답변을 조사하는 중립적인 중재자로 GPT-4를 활용했습니다. 그 결과, GPT-4의 평가 기준과 일관된 근거에 따라 삼바링고는 동일한 언어 영역에서 모든 경쟁 모델을 능가하는 것으로 나타났습니다.

삼바링고 방법론의 도입은 최상위 모델의 기능을 활용하고 이를 덜 탐구된 언어에 적용함으로써 인공지능과 언어 다양성 사이의 간극을 좁히는 중요한 단계를 의미합니다. 이 혁신적인 기술은 최적의 성능 수준과 사용자 선호도를 유지하면서 언어 장애를 극복할 수 있는 실용적이고 광범위한 솔루션을 제시합니다. 따라서 다양한 언어적 배경을 가진 사람들이 AI의 이점을 누릴 수 있는 보다 공평한 사회를 위한 기반을 마련하여 포용성과 보편적 접근성을 촉진합니다.

논문 을 확인하세요. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 노력에 감사하는 분들께 뉴스레터 구독을 진심으로 권해드리며, 이는 의심할 여지 없이 매력적으로 느껴질 최신 노력과 업데이트에 대한 정보를 얻을 수 있는 좋은 기회입니다.

4만 명이 넘는 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

저희 플랫폼은 인공지능에 관심이 있는 150만 명 이상의 상당한 잠재고객을 보유하고 있어, 귀사의 브랜드가 참여도가 높고 관련성이 높은 인구 통계에 도달할 수 있는 훌륭한 기회를 제공합니다. 이 특별한 기회를 활용하기 위해 협력해 보세요.

Google, NVIDIA, Meta, 스탠포드, MIT, Microsoft 등 유수 기관의 저명한 연구자들이 구독하는 빠르게 확장 중인 뉴스레터를 구독하세요.