노믹 임베드: 최초의 오픈소스 긴 텍스트 임베드 모델, OpenAI를 능가하는 최고의 모델
서면 콘텐츠를 숫자 형식으로 변환하는 텍스트 표현은 자연어 처리(NLP)의 필수적인 측면을 구성합니다. 이 기술을 사용하면 데이터 간에 존재하는 복잡한 패턴과 상호 의존성을 식별하는 동시에 의미적 연결과 맥락을 명확히 파악할 수 있습니다.
그럼에도 불구하고 2048개 이상의 확장된 컨텍스트 범위를 자랑하는 매우 효율적인 임베딩 모델의 광범위한 가용성은 독점적인 특성으로 인해 방해를 받아왔습니다. 또한, 수많은 유명 오픈 소스 긴 컨텍스트 임베딩 솔루션은 추론 과정에서 상당한 계산 오버헤드가 발생하여 다양한 엔지니어링 작업에서 실용성이 떨어집니다.
재현 가능한 긴 문맥 텍스트 임베더 훈련"이라는 제목의 논문에서 Nomic AI 연구진은 여러 가지 획기적인 기능을 구현하는 혁신적인 텍스트 임베딩 모델인 nomic-embed-text-v1을 소개했습니다. 텍스트 임베딩을 위한 최초의 완전 재현 가능한 오픈 소스, 오픈 가중치, 오픈 데이터 모델인 이 모델은 영어로 최대 8192개의 토큰에 이르는 상당한 문맥 범위를 쉽게 수용할 수 있습니다. 또한, nomic-embed-text-v1은 짧은 문맥과 확장된 문맥 모두에서 뛰어난 성능을 입증하여 OpenAI의 Ada-002 및 OpenAI의 텍스트 임베딩-3-small 모델과 같은 동급 모델보다 성능이 뛰어납니다.
이 종합 문서에는 nomic-embed-text-v1 개발에 사용된 교육적 접근 방식이 자세히 설명되어 있습니다. 확장된 텍스트 세그먼트를 효과적으로 처리할 수 있는 모델을 만들기 위해 연구자들은 8192개의 토큰 시퀀스 길이를 포함하도록 용량을 늘리는 데 특히 중점을 두고 BERT를 수정하는 것으로 노력을 시작했습니다. 수정 과정에는 BERT 기반에 대한 일련의 아키텍처 조정과 성능 개선이 수반되었습니다:
절대 위치 임베딩을 회전 임베딩으로 대체하고, 활성화 기능으로 GeLU를 SwiGLU로 대체하고, 플래시 주의 메커니즘을 통합하고, 드롭아웃률을 0으로 줄이고, 어휘 크기가 64의 정확한 배수임을 보장함으로써 절대 위치 임베딩의 활용도를 수정했습니다.
마스크드 언어 모델링 사전 훈련을 수행하기 위해 저희 그룹은 북스코퍼스 데이터 세트와 2023년으로 거슬러 올라가는 특정 버전의 위키피디아 아카이브를 훈련 자료로 사용했습니다. 이러한 리소스를 활용하여 긴 텍스트 구절을 처리하도록 특별히 설계된 고급 버전의 BERT 모델(nomic-bert-2048)을 학습시켰습니다.
비지도 대조 사전 훈련 단계에서 저희 팀은 공개적으로 액세스 가능한 방대한 양의 데이터를 활용하여 쌍을 생성했으며, 그 결과 29개의 서로 다른 데이터 세트에서 총 4억 7천만 개의 쌍을 도출했습니다. 전체 MiniLM-L6-v2 모델을 사용하는 대신 gte-base 모델을 사용하고 각 데이터 세트에서 개별적으로 쌍을 샘플링하여 모델이 소스별 지름길을 개발하지 못하도록 했습니다.
감독된 대조 미세 조정은 MSMarco, NQ, NLI, FEVER 및 HotpotQA와 같은 여러 데이터 세트에 대해 실행되었습니다. 훈련 과정에는 BEIR 벤치마크에서 제공하는 사용 가능한 훈련 데이터를 활용하는 동시에 ‘gte-base’에 지정된 사전 정의된 접근 방식에 따라 필요한 경우 검색 작업을 위해 추가적인 네거티브 마이닝 기법을 통합하는 것이 포함되었습니다.
Nomic-bert-2048은 GLUE 벤치마크에서의 성능을 기반으로 평가되었으며, nomic-embed-text-v1은 MTEB, Jina의 Long Context Benchmark, LoCo를 포함한 여러 플랫폼에서 테스트되었습니다. 주목할 만한 점은 nomic-embed-text-v1이 다양한 벤치마크에서 텍스트 임베딩-ada-002와 jina-embeddings-v2-base-en보다 우수한 성능을 보였다는 점입니다. 특히 LoCo 및 Jina의 긴 컨텍스트 벤치마크와 같은 긴 컨텍스트 평가에서 nomic-embed-text-v1은 jina-embeddings-v2-base-en에 비해 일관되게 뛰어난 결과를 보여주었습니다. 또한, 텍스트 임베딩-ada
논문 Nomic Embed: 훈련하는 재현 가능한 긴 문맥 텍스트 임베더 arXiv 보다 성능이 뛰어났습니다.