LLM2Vec: 모든 디코더 전용 LLM을 텍스트 인코더로 변환하는 간단한 AI 접근 방식 비지도 및 지도 범주에서 MTEB에서 SOTA 성능을 달성하는 방법
텍스트 임베딩 모델은 텍스트의 의미적 뉘앙스를 벡터 표현으로 효과적으로 변환하기 때문에 자연어 처리(NLP) 작업을 실행하는 데 있어 텍스트 임베딩 모델에 대한 의존도는 필수적입니다. 이러한 표현을 통해 정보 검색, 클러스터링, 의미론적 텍스트 유사성 평가 등을 포함하는 NLP 작업을 효율적으로 수행할 수 있습니다.
이전에는 텍스트 표현 작업에 BERT, T5와 같은 유명한 사례를 포함해 사전 학습된 양방향 인코더 또는 인코더-디코더가 일반적으로 선호되었습니다. 그러나 최근 자연어 처리 분야에서는 디코딩 기능만을 활용하는 대규모 언어 모델(Large Language Model)에 대한 선호도가 높아졌습니다.
디코더 전용 대규모 언어 모델(LLM)은 자연어 처리 영역 내에서 텍스트 임베딩 작업을 처리하는 데 제한적인 성공을 거두었습니다. 문맥적으로 풍부한 표현을 생성하는 모델의 능력을 제약하는 기본 인과적 주의 메커니즘이 이러한 차선책 성능에 크게 기여합니다. 특히 인과적 주의를 사용하면 각 토큰의 표현이 앞의 토큰에 의해서만 영향을 받기 때문에 전체 입력 시퀀스를 종합적으로 처리하는 모델의 능력을 저해합니다.
디코더 전용 언어 모델(LLM)은 인코더 전용 모델에 비해 몇 가지 장점이 있습니다. 예를 들어, 사전 학습 중에 모든 입력 토큰을 효율적으로 학습할 수 있으며, 사용 가능한 광범위한 도구와 사전 학습 레시피를 활용할 수 있습니다. 또한, 명령어 미세 조정 기술의 발전으로 인해 이러한 모델은 다양한 자연어 처리(NLP) 작업을 처리하는 데 있어 놀라운 숙련도를 보여 주어 다양한 애플리케이션에 다용도로 활용할 수 있습니다.
효과적인 텍스트 임베딩을 생성하는 데 있어 디코더 전용 언어 모델(LLM)과 관련된 한계를 해결하기 위해 Mila, McGill University, ServiceNow Research 및 Facebook CIFAR AI Chair의 연구원 그룹은 기존의 디코더 전용 LLM을 텍스트 인코딩 모델로 변환하는 효율적이고 감독 없는 접근 방식인 LLM2Vec을 도입했습니다. 이 프로세스는 최소한의 리소스를 소비하며 레이블이 지정된 데이터가 필요하지 않습니다.
LLM2Vec은 세 가지 주요 단계로 구성된 간단한 접근 방식을 사용합니다. 처음에는 양방향 주의를 허용하여 모델이 이전 토큰과 후속 토큰을 모두 고려하면서 표현을 생성할 수 있도록 합니다. 그 다음에는 마스크된 다음 토큰 예측이라는 방법을 사용하여 모델이 입력 시리즈 내에 표시될 숨겨진 토큰을 예측함으로써 문맥적 세부 사항을 쉽게 이해하고 인코딩할 수 있도록 합니다.마지막으로, LLM2Vec은 임베딩 공간에서 유사 인스턴스와 유사하지 않은 인스턴스를 비교하여 모델의 표현 개발을 강화하는 비지도 대조 학습을 활용합니다.
LLM2Vec은 13억에서 70억 사이의 다양한 크기 매개변수를 가진 모델을 포함하여 여러 유명 언어 모델에 사용되어 그 기능을 입증한 효과적인 도구입니다. 영어의 수많은 단어 및 시퀀스 수준 작업에서 이러한 모델을 테스트한 결과, 특히 단어 수준 작업에서 기존 인코더 전용 모델에 비해 성능이 크게 개선된 것으로 나타났습니다. 또한 이 접근 방식은 대규모 텍스트 임베딩 벤치마크(MTEB)의 비지도 학습 트랙에서 인상적인 결과를 달성하여 이 분야의 성능에 대한 새로운 표준을 세웠습니다.
우리 팀은 지도 대조 학습과 함께 LLM2Vec을 활용하여 MTEB에서 탁월한 결과를 달성했습니다. 이러한 연구 결과는 보편적으로 적용할 수 있는 텍스트 인코더로서 대규모 언어 모델(LLM)의 효율성을 입증합니다. 특히, 이러한 발전은 최소한의 추가 매개변수로 실행되었기 때문에 비용이 많이 드는 조정이나 GPT-4와 같은 비현실적인 아키텍처를 통한 인공 데이터 생성의 필요성을 제거했습니다.
논문 를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들을 위해 뉴스레터를 구독해 주시면 저희의 뛰어난 콘텐츠와 서비스에 더욱 빠져들 수 있는 좋은 기회이니 진심으로 초대합니다.
4만 명 이상의 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
지금 바로 Facebook과의 협업을 통해 150만 명에 달하는 방대한 잠재고객에게 다가갈 수 있는 기회를 살펴보세요.
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학(MIT), Microsoft 및 기타 여러 저명한 기관의 최고 전문가들이 열심히 읽고 있는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.