개방형 소규모 언어 모델을 위한 효율성을 개척한 딥마인드의 RecurrentGemma
인공 지능과 자연어 처리의 방대한 영역에서 소규모 언어 모델(SLM)은 상당한 발전을 이루었습니다. 더 많은 매개변수 수와 더 많은 연산 요구 사항을 자랑하는 대규모 모델과 달리 SLM은 리소스가 제한된 환경에서도 뛰어난 기능을 발휘하도록 최적화된 간소화된 설계를 자랑합니다.
오픈 언어 모델의 효율성 향상", Google DeepMind의 연구원 그룹은 Google의 최첨단 그리핀 아키텍처를 기반으로 개발된 새로운 오픈 소스 언어 모델인 RecurrentGemma를 소개했습니다. 이 모델은 메모리 소비를 최소화하고 확장된 시퀀스에서 효율적인 추론을 간소화함으로써 리소스가 제한된 환경에서도 효과적으로 작동하는 작지만 강력한 언어 모델을 만들 수 있는 흥미로운 기회를 열어줍니다.
그리핀은 2024년 2월 Google에서 도입한 것으로, 글로벌 주의와 로컬 주의의 조합을 통해 긴 시퀀스를 효율적으로 생성하는 새로운 접근 방식을 나타냅니다. 성능을 향상시키기 위해 기존 그리핀 아키텍처를 단 한 번만 조정하여 입력 임베딩의 크기를 모델 크기의 제곱근에 해당하는 비율로 조정했습니다.
RecurrentGemma 아키텍처는 글로벌 주의에서 벗어나 로컬 주의 메커니즘과 함께 선형 재귀를 사용하는 순차적 접근 방식을 사용합니다. 성능을 향상시키기 위해 연구원들은 약 2조 개의 토큰으로 구성된 광범위한 말뭉치에 대해 RecurrentGemma-2B 모델을 사전 훈련했습니다. 이 포괄적인 훈련 방식에 앞서, 이 모델은 처음에는 광범위한 대규모 일반 데이터로 훈련한 후 보다 집중적인 고품질 데이터 세트로 전환하여 더욱 세밀하게 다듬습니다. 반응형 결과물 생성을 최적화하기 위해 팀은 미세 조정 과정에서 RLHF라는 새로운 강화 학습 방법을 활용합니다.
자동 벤치마크와 인간 평가를 모두 사용하여 여러 영역에서 RecurrentGemma-2B의 성능을 평가합니다. 성능에서 주목할 만한 한 가지 측면은 정확도 측면에서 Gemma와 비슷하지만 추론 중, 특히 긴 시퀀스를 처리할 때 효율성이 향상된다는 점입니다.
코드는 프로젝트의 GitHub 에서 확인할 수 있습니다. RecurrentGemma: 효율적인 오픈 언어 모델을 위한 과거의 트랜스포머 이동 논문은 arXiv 에 있습니다.