Contents

이글(RWKV-5) 및 핀치(RWKV-6): 멀티헤드 행렬 값 상태와 동적 데이터 기반 순환 메커니즘을 통합하여 순환 신경망 기반 언어 모델에서 상당한 진전을 이루었습니다.

Contents

대규모 언어 모델(LLM)은 고급 계산 기능을 활용하여 자연어 처리 분야에 큰 영향을 미쳤지만, 널리 사용되는 Transformer 아키텍처는 이차적 복잡성과 관련된 내재적 문제를 안고 있습니다. 이러한 문제를 완화하기 위해 스파스 주의와 같은 접근 방식이 모색되고 있지만, 새롭고 창의적인 핵심 설계 원칙을 채택하여 놀라운 성능을 보여주는 새로운 모델들이 등장하고 있습니다.

이 문서에서는 Transformer에서 사용하는 기존의 주의 메커니즘을 고효율 리커버리 모듈로 대체하는 Eagle(RWKV-5) 및 Finch(RWKV-6)라는 두 가지 새로운 아키텍처 설계를 소개합니다. 이 모델들은 이전 설계인 RWKV-4를 기반으로 제작되었으며 다중 헤드 매트릭스 값 상태, 개선된 수신 및 추가 게이팅 메커니즘과 같은 다양한 개선 사항이 통합되어 있습니다. 이와는 대조적으로 Finch는 시간 혼합 및 토큰 이동을 위한 데이터 종속 함수를 구현하여 더욱 다양하고 표현력이 풍부한 모델링 접근 방식을 구현함으로써 한 단계 더 발전했습니다.

이 모델의 특징은 데이터 기반의 역동성에 있습니다. Eagle의 반복은 시간이 지나도 모든 채널에 대해 일정하게 유지되며, 채널별로 독점적으로 학습되어 새로운 정보를 바탕으로 꾸준히 구축됩니다. 반면, Finch는 시간 가변적이고 데이터에 반응하는 가중치를 통해 각 채널이 현재 입력 시나리오에 따라 메모리 특성을 수정할 수 있도록 지원합니다. 로우 랭크 적응과 같은 방법을 통해 이 혁신적인 전략은 놀라운 효율성으로 리커버리 파라미터를 최적화합니다.

다양한 유형의 정보를 처리할 때 모델의 범용성을 높이기 위해 언어적 다양성과 프로그래밍 언어 포용에 중점을 둔 RWKV World Tokenizer와 1.12조 개의 토큰으로 구성된 방대한 RWKV World v2 코퍼스를 통합했습니다.

경험적 증거는 다국어 벤치마크에서 비슷한 규모의 다른 모델보다 Eagle과 Finch의 우월성을 입증하여 정확도-성능 트레이드오프가 인상적으로 향상되었음을 보여줍니다. 이 모델들은 연관 리콜과 확장된 컨텍스트 모델링에서 탁월한 성능을 보여주며 까다로운 Bamboo 벤치마크에서 모든 경쟁사를 능가했습니다. 또한, 이러한 효율적인 아키텍처는 스파스 트랜스포머 대안보다 향상된 추론 속도와 낮은 메모리 소비량을 제공합니다.

문제의 모델은 단순한 언어 전문가 이상의 숙련도를 보여줍니다. 우리 팀은 이전 아키텍처인 RWKV-4에 비해 2%의 놀라운 성능 향상을 달성함으로써 음악 모델링에 대한 Eagle의 적성을 성공적으로 보여주었습니다.또한 시각적 이해 작업에 탁월하고 훨씬 더 광범위한 모델과 경쟁할 수 있는 맞춤형 멀티모달 버전인 VisualRWKV를 개발했습니다.

Eagle과 Finch는 텍스트 표현 작업에서 어려움을 겪는 등 특정 제약이 있지만, 자원이 풍부하고 최상위 언어 모델링에서 상당한 발전을 구현합니다. 이 모델들은 기존의 Transformer 구성에서 벗어나 적응형 데이터 지향 재귀 전략을 통합함으로써 계산 경제성을 유지하면서 다양한 성능 지표에서 주목할 만한 결과를 제공합니다.

논문 , Github , HF 페이지 를 확인하세요. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 노력에 감사하는 분들께는 뉴스레터 구독을 통해 저희의 뛰어난 연구에 대한 더 많은 인사이트를 얻고 향후 진행될 수 있는 업데이트나 노력에 대한 정보를 얻을 수 있는 좋은 기회이므로 진심으로 초대합니다.

4만 명이 넘는 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

인공 지능에 열정을 가진 150만 명 이상의 방대한 잠재 고객에게 다가가는 데 관심이 있으신가요? 참여도가 높은 이 커뮤니티에 귀사를 연결해 드리는 서비스를 제공해 드릴 수 있어 기쁘게 생각합니다. 귀사의 목표 달성을 지원하는 방법에 대한 자세한 정보를 원하시면 언제든지 문의해 주세요.

Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학(MIT), Microsoft 및 기타 여러 저명한 기관의 저명한 전문가들이 열심히 읽고 있는 빠르게 확장되고 있는 AI 연구 뉴스레터를 구독하세요.