마이크로소프트의 롱로프, LLM의 컨텍스트 창 한계를 깨고 200만 토큰으로 확장하다
대규모 언어 모델(LLM)은 수많은 도메인에서 탁월한 성능을 입증해 왔습니다. 그럼에도 불구하고 장거리 종속성을 포착하는 능력은 미세 조정과 관련된 상당한 비용, 확장된 텍스트 콘텐츠의 부족, 새로운 토큰 위치가 모델의 동작에 미치는 해로운 영향 등으로 인해 종종 방해를 받곤 합니다.
이러한 문제를 해결하기 위해 최근 Microsoft 연구팀에서 LongRoPE라는 최신 혁신 기술을 소개했습니다. 이 획기적인 접근 방식은 기존 최첨단 언어 모델의 컨텍스트 범위를 200만 토큰 이상으로 확장하여 2048킬로바이트에 이르는 놀라운 길이를 제공하면서도 더 짧은 컨텍스트 창에서 효율성을 저하시키지 않습니다.
팀은 현재 컨텍스트 창 확장을 방해하는 여러 가지 중요한 장애물을 확인했으며, 여기에는 다음과 같은 것들이 포함됩니다:
훈련되지 않은 새로운 포지션 인덱스는 수많은 치명적인 값을 도입하여 분포를 벗어나는 문제를 일으키고 미세 조정 수렴을 복잡하게 만듭니다. 미세 조정을 위해서는 일반적으로 해당 길이의 텍스트가 필요하지만, 특히 1000자를 초과하는 긴 텍스트는 매우 드뭅니다. 매우 긴 텍스트에 대한 훈련은 계산적으로 까다로워서 많은 훈련 시간과 GPU 리소스가 필요합니다. 매우 긴 컨텍스트 창으로 확장하면 수많은 토큰 위치에 주의가 분산되어 원래의 짧은 컨텍스트에 대한 성능이 저하됩니다.
초기 장애물을 해결하기 위해 우리 그룹은 새로 생성된 위치 인덱스를 이전에 훈련된 모델과 일치하도록 스케일링하는 보간된 RoPE 위치 임베딩을 활용합니다. 철저한 실험을 통해 두 가지 중요한 인사이트를 발견했습니다:
효과적인 위치 보간은 두 가지 형태의 비균일성, 즉 다양한 RoPE 차원과 토큰 위치를 고려해야 합니다. 비균일성을 위치 보간에 통합함으로써 원래 RoPE의 정보, 특히 중요한 차원과 토큰 위치를 효과적으로 유지합니다.
이러한 발견에서 영감을 받아 세 가지 획기적인 기능을 도입하여 LLM의 언어적 컨텍스트 창을 2백만 개 이상의 토큰으로 확장하는 놀라운 업적을 달성한 LongRoPE를 만들었습니다:
효율적인 검색을 통해 위치 보간에서 두 가지 형태의 비균일성을 식별하고 활용하여 미세 조정을 위한 향상된 초기화를 제공하고 미세 조정이 아닌 시나리오에서 8배 확장을 가능하게 합니다.점진적 확장 전략을 도입하여 처음에는 256k 길이의 LLM을 미세 조정한 다음, 미세 조정된 확장 LLM에 두 번째 위치 보간을 수행하여 2048k 컨텍스트 창을 달성합니다. 짧은 컨텍스트 창에서 성능을 복원하기 위해 8k 길이의 LongRoPE를 재조정합니다.
LongRoPE는 다양한 대규모 언어 모델(LLM)과 다양한 긴 컨텍스트 작업에서 뛰어난 성능을 발휘하는 것으로 입증되었습니다. 이는 4k에서 2048k에 이르는 평가 길이에서 일관되게 낮은 난해성 수준과 관련 키 검색에서 90% 이상의 정확도를 달성하는 인상적인 능력을 통해 분명하게 드러납니다. 또한 4096 컨텍스트 창 내에서 생성된 표준 벤치마크와 비교했을 때, LongRoPE는 동등하거나 더 우수한 성능을 보여줍니다. LongRoPE의 유연성 덕분에 RoPE 임베딩을 사용하는 모든 모델에서 활용할 수 있습니다.
연구자들은 LongRoPE 기술의 발전이 장기적인 맥락 정보를 활용할 수 있는 다양한 새로운 기회를 열어 이 분야의 혁신을 촉진하고 추가적인 탐구를 촉진할 것으로 예상하고 있습니다.
코드는 https: // github.com/microsoft/LongRoPE 에서 확인할 수 있습니다. LongRoPE: 2백만 토큰 이상으로 LLM 컨텍스트 창 확장 논문은 arXiv 에 있습니다.