메타 AI 연구원, 고급 롱 컨텍스트 LLM을 제안하다: 업샘플링, 트레이닝 기법 및 GPT-3.5-Turbo-16k의 성능을 뛰어넘는 심층 분석
자연어 처리 영역에 대규모 언어 모델(LLM)이 등장하면서 획기적인 변화가 일어났습니다. 이 놀라운 시스템은 방대한 데이터 세트를 바탕으로 세심하게 훈련되고 엄청난 연산 능력을 활용하여 인간과 기계의 상호작용에 새로운 지평을 열었습니다. 날이 갈수록 머신러닝은 빠른 속도로 확장 및 보급되고 있으며, 그 기능의 한계를 새로운 차원으로 끌어올리는 더욱 정교한 애플리케이션을 탄생시키고 있습니다. 심오한 지혜가 담긴 복잡하게 얽힌 문서와 씨름하는 것부터 챗봇과의 만남에 거짓 없는 생동감과 참여를 불어넣어 활기를 불어넣는 것까지, LLM은 이음새
이러한 발전을 가능하게 하는 핵심 요소는 광범위한 맥락 정보를 유능하게 처리할 수 있는 능력입니다. 따라서 LLM은 상당한 양의 사전 맥락에 비추어 텍스트를 이해하고 생산할 수 있어야 하며, 이는 특히 확장된 문서, 여러 차례에 걸친 토론 또는 복잡한 문제 해결 프로세스를 포괄하는 작업과 관련이 있습니다.
지금까지 강력한 장문맥 기능을 갖춘 대규모 언어 모델에 대한 접근성은 대부분 독점적인 언어 모델 API로 제한되어 있어 연구자와 개발자가 쉽게 사용할 수 있는 옵션이 없었습니다. 오픈 소스 대안이 존재하지만, 다양한 실제 애플리케이션에서 엄격한 평가를 거친 결과 만족스러운 성능을 제공하지 못하는 경우가 많습니다. 따라서 이러한 모델은 언어 모델링 손실과 합성 작업 평가를 강조하는 경향이 있지만, 이러한 평가는 복잡한 실제 상황에서의 잠재력을 완전히 포착하지 못할 수 있습니다. 또한, 이러한 모델이 표준화된 테스트를 아예 피하거나 만족스럽지 못한 결과를 도출하여 칭찬할 만한 단기적 성과를 유지하는 데 소홀히 하는 경우도 많습니다.
앞서 언급한 어려움을 고려하여 최첨단 메타 연구에서는 현재의 오픈 소스 대안을 능가하는 최첨단 장문맥 언어 모델(LLM)을 개발하기 위한 새로운 전략을 도입했습니다. 이 방법은 LLAMA 2 마일스톤의 지속적인 리허설과 4,000억 개의 토큰을 추가로 활용하여 포괄적인 훈련 시리즈를 생성하는 데 달려 있습니다. 이 시리즈는 확장된 문맥 이해의 핵심 측면을 캡슐화하는 것을 목표로 합니다. 이 연구는 32,768개의 토큰 시퀀스를 사용하여 재훈련된 소규모 7B/13B 구성과 16,384개의 토큰 세그먼트로 훈련된 보다 광범위한 34B/70B 아키텍처를 포함하는 여러 가지 모델 종류를 선보입니다.
이 방법론의 특징은 포괄적인 평가 절차에 있습니다.이전 조사와는 달리 연구진은 여러 축을 따라 모델의 기능을 면밀히 조사했습니다. 이러한 기준에는 언어 모델링 숙련도, 조작된 과제에서의 실행력, 그리고 무엇보다도 광범위한 실제 사용 사례에서의 효율성 측정이 포함됩니다. 시험은 확장된 문맥 과제와 간단한 문맥 과제로 구성되어 있어 모델의 역량을 일관된 관점에서 파악할 수 있습니다.
이 결과는 이러한 모델의 확장성이 더 광범위한 문맥 정보를 활용할 수 있는 능력을 나타내며, 이는 대규모 언어 모델(LLM)의 성능을 결정하는 데 있어 추가적인 중요한 차원으로 작용한다는 것을 나타냅니다.
다양한 연구 벤치마크에서 LLAMA 2가 얻은 결과와 비교했을 때, 우리가 제안한 접근 방식은 확장된 문맥 작업에서 상당한 발전을 보였으며 기존의 단기 작업에서도 중간 정도의 증가를 보였습니다. 이러한 진전은 프로그래밍, 수학적 문제 해결, 지식 습득과 같은 영역에서 특히 두드러집니다. 또한 수동으로 주석이 달린 데이터에 의존하지 않고도 지속적으로 사전 학습된 대규모 언어 모델을 훈련할 수 있는 복잡하지 않고 경제적인 프로세스를 개발했습니다. 그 결과, 여러 광범위한 컨텍스트 평가 지표에서 gpt-3.5-turbo-16k의 성능을 능가하는 대화형 모델을 만들 수 있었습니다.
제안된 방법론은 독점 및 오픈 소스 롱 컨텍스트 LLM을 연결하는 데 있어 중요한 발전을 이루었습니다. 이 모델은 여러 측면에서 포괄적인 평가를 거쳐 탁월한 성능을 입증했으며, 기능의 결정 요인에 대한 귀중한 인사이트를 제공했습니다. 궁극적으로 연구팀에서는 연구자와 개발자가 장문맥 LLM의 잠재력을 최대한 활용할 수 있도록 하여 다양한 자연어 처리 애플리케이션을 위한 기반을 마련하고 이 분야의 혁신적 전환기를 맞이할 수 있도록 하겠다는 비전을 갖고 있습니다.
백서를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 최신 AI 연구 소식, 멋진 AI 프로젝트 등을 공유하는 31k\\+ ML 서브 레딧, 40k\\+ 페이스북 커뮤니티, 디스코드 채널, 이메일 뉴스레터에 가입하는 것을 잊지 마세요. 획기적인 프로젝트에 대한 최신 업데이트, 독점적인 인사이트, 업계의 최신 개발 동향을 통해 풍성한 읽을거리를 경험해 보세요. 지금 가입하여 트렌드를 앞서 나가고 활기찬 커뮤니티의 일원이 되어 보세요.
이 분야의 최첨단 개발에 대한 정기적인 업데이트와 인사이트를 제공하는 YouTube 채널을 구독하여 인공 지능 연구의 최신 발전을 경험하세요.