구글 딥마인드 연구원들이 Gecko를 소개합니다: LLM의 방대한 세계 지식으로 구동되는 컴팩트하고 다재다능한 임베딩 모델
인간의 능력에 상응하는 수준으로 텍스트를 이해하고 조작할 수 있는 계산 시스템을 개발하는 것은 자연어 처리(NLP) 분야에서 계속되고 있는 목표입니다. 특히 주목할 만한 과제 중 하나는 방대한 양의 텍스트 데이터를 기계 처리 및 해석이 가능한 형식으로 효과적으로 변환할 수 있는 아키텍처를 설계하는 것과 관련이 있습니다. 이러한 요구를 해결하기 위해 텍스트 임베딩 모델은 서면 자료를 압축된 표현으로 변환하여 의미 비교, 문서 분류, 관련성에 기반한 관련 정보 검색을 용이하게 하는 솔루션으로 부상했습니다. 하지만 이러한 모델을 구축하기 위한 이전 접근 방식에서는 수작업으로 주석을 달아야 했기 때문에 시간과 리소스가 많이 소모되었습니다.
Ge
팀은 선택한 구절에 라벨을 다시 지정하는 LLM을 활용하여 인공적으로 생성된 데이터 세트의 품질을 향상시킴으로써 모든 문의가 가장 관련성이 높은 콘텐츠와 일치하도록 보장합니다. 이 중요한 재라벨링 절차는 관련 없는 정보를 제거하고 각 문의와 정확하게 일치하는 구절을 강조하는 기술로, 데이터베이스의 제약을 받는 기존 모델의 역량을 뛰어넘는 기술입니다.
대량 텍스트 임베딩 벤치마크(MTEB)로 평가했을 때 Gecko는 놀라운 숙련도를 보여주었습니다. 실제로 비교 대상에 포함된 다른 모든 모델보다 임베딩 크기가 더 작았음에도 불구하고 비교 대상에 포함된 모든 모델을 능가했습니다. 특히 768차원 임베딩을 사용한 모델과 비교했을 때, Gecko는 크기와 차원 모두에서 훨씬 더 작으면서도 이러한 결과를 달성했기 때문에 더욱 주목할 만한 성능을 보였습니다.
Gecko의 핵심 혁신은 대규모 언어 모델(LLM)을 활용하여 정교하게 구축된 인공적으로 구성된 데이터 세트인 FRet에 기인한다고 할 수 있습니다. 이 데이터 세트는 다양한 검색 컨텍스트를 포괄하는 광범위한 쿼리-구문 쌍을 처음에 생성하는 다단계 절차에서 파생됩니다. 그 후, 이러한 페어링은 정밀도를 위해 구절을 재귀속하는 등 미세 조정을 거쳐 모든 쿼리가 최적의 동반 구절과 일치하도록 보장합니다. FRet은 LLM 고유의 광범위한 전문성을 활용하여 언어 처리 기능을 발전시키기 위한 포괄적이고 세심하게 맞춤화된 리소스를 제공합니다.
요약하면, Gecko 개발에 LLM을 활용함으로써 자체 학습 데이터세트를 생성하고 개선하기 위해 이러한 모델을 적용하는 데 있어 중요한 진전을 이룩한 것입니다.기존의 데이터 세트 의존에 따른 제약을 뛰어넘어 텍스트 임베딩 기술의 생산성과 적응성에 대한 새로운 표준을 확립한 Gecko. 데이터 세트 생성 및 최적화를 위한 선구적인 방법론과 결합된 MTEB의 인상적인 성과는 LLM의 방대한 잠재력을 강조합니다.
논문 를 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.
저희의 노력에 감사하는 분들께는 뉴스레터 구독을 통해 저희의 최신 노력에 대한 정보를 얻고 관심사에 부합하는 조직 내 발전 상황을 계속 업데이트할 수 있는 좋은 기회이므로 진심으로 초대합니다.
현재 39,000명이 넘는 회원 수를 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.
Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학, Microsoft 및 기타 여러 저명한 기관의 저명한 학자들이 열심히 읽고 있는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.