마이크로소프트 리서치에서 롱넷을 소개합니다: 짧은 시퀀스에서도 손실 없이 시퀀스 길이를 10억 개 이상의 토큰으로 확장할 수 있는 트랜스포머 변형 기술 소개
신경망의 확장은 최근 상당한 주목을 받고 있습니다. 더 높은 수준의 표현력을 달성하기 위해 깊이를 크게 늘린 딥러닝 아키텍처가 개발되고 있습니다. 이 과정에서 희소 모델 앙상블(MoE) 모델과 병렬 처리 기법을 활용하여 숨겨진 차원을 효과적으로 확장하는 것은 중요한 측면입니다. 시퀀스 길이에 대한 제한을 제거하면 신경망의 최종 차원으로 작용하여 충분한 메모리와 수용 필드를 제공함으로써 모델이 주변 환경 및 사람과 상호 작용할 수 있습니다. 또한 시퀀스 길이가 길수록 훈련 중에 활용할 수 있는 더 복잡한 인과 관계와 사고 과정을 포함합니다.
긴 종속성과 짧은 종속성 모두 장점이 있지만, 짧은 종속성은 잘못된 상관관계가 더 많기 때문에 일반화 능력을 저해할 수 있습니다. 또한 짧은 종속변수는 점진적 학습에서 경계 조건을 탐색할 수 있게 해주며, 이는 매우 광범위한 컨텍스트가 모델에서 치명적인 망각의 위험을 줄일 수 있기 때문에 많은 샷 교육에 대한 접근 방식에서 중요한 변화를 나타냅니다. 그러나 계산 복잡성과 모델 표현력 사이의 최적의 균형을 찾는 것은 시퀀스 길이를 확장하는 데 있어 여전히 핵심 과제로 남아 있습니다.
순환 신경망(RNN) 기반 모델의 주요 목표는 더 긴 시퀀스를 처리할 수 있는 용량을 늘리는 것입니다. 이러한 모델에는 훈련 중 병렬화가 필수적이지만, 모델 고유의 순차적 특성으로 인해 제한이 있습니다. 최근에는 훈련 중에는 컨볼루션 신경망(CNN)으로, 테스트 중에는 효과적인 RNN으로 작동할 수 있는 상태 공간 모델에 대한 관심이 높아지고 있습니다. 이러한 모델은 장거리 종속성을 처리하는 데는 탁월하지만 짧은 입력에는 어려움을 겪습니다. 트랜스포머 모델보다 뒤처지는 이유 중 하나는 표현력이 떨어지기 때문입니다. 또 다른 과제는 입력 요소의 수에 따라 이차적이고 요소 사이의 거리에 따라 달라지는 트랜스포머의 계산 복잡성을 줄이는 것입니다. 이 문제를 해결하기 위해 일부 연구자들은 주의 메커니즘에 슬라이딩 윈도우 또는 컨볼루션 모듈을 구현하여 선형에 가까운
학습 가능한 패턴과 휴리스틱 패턴을 모두 활용하는 것이 희소 주의에 효과적인 접근 방식임이 입증되었습니다. 이 외에도 낮은 순위 주의, 커널 기반 기법, 다운샘플링 전략, 반복 모델, 검색 기반 접근법 등 여러 가지 고급 Transformer 기반 방법이 존재합니다. 그러나 이러한 발전에도 불구하고 10억 개의 토큰으로 데이터 세트를 확장하는 데 성공한 선행 연구는 없습니다. 반면, 이 연구의 저자들은 이러한 기법을 사용하여 시퀀스 길이를 10억 개의 토큰으로 확장하는 데 성공했습니다.또한, 마이크로소프트 리서치의 연구원들은 확장된 주의라는 최첨단 구성 요소를 통합하여 기존 트랜스포머에서 벗어난 롱넷을 소개했습니다. 이 방법의 기본 원리는 토큰 간의 거리가 멀어질수록 주의력 할당이 급격히 감소한다는 것입니다
본 공식은 모든 토큰의 보편적 가용성과 주의력 자원의 유한한 특성을 조화시키기 위해 노력합니다. 제안된 설계는 구현 중에 압축된 트랜스포머 아키텍처로 변환될 수 있으며, 커널 융합, 양자화, 분산 훈련과 같은 기존 트랜스포머 최적화를 어려움 없이 통합할 수 있습니다. 선형 복잡성을 활용하는 롱넷은 노드 간에 트레이닝을 분할할 수 있어 CPU 및 메모리와 관련된 제약을 피할 수 있습니다. 이는 수정되지 않은 트랜스포머가 입방 복잡성의 영향을 받는 것과 달리 실제 런타임 상수를 유지하면서 시퀀스 길이를 최대 1B 토큰까지 효율적으로 확장할 수 있게 해줍니다.
논문 및 Github 링크를 확인하세요. 최신 AI 연구 소식, 멋진 AI 프로젝트 등을 공유하는 25k+ ML 서브레딧, Discord 채널, 이메일 뉴스레터에 가입하는 것을 잊지 마세요. 위의 글과 관련하여 궁금한 점이 있거나 저희가 놓친 부분이 있다면 언제든지 이메일을 보내주시기 바랍니다.
100개가 넘는 방대한 인공지능 도구를 열람하고 고려할 수 있는 AI 도구 클럽에 관한 다음 내용을 준수해 주시기 바랍니다:
최근 이미 인상적인 스토리버드의 레퍼토리에 몇 가지 주목할 만한 기능이 추가되었다는 소식을 전해 들었습니다. 이 혁신적인 플랫폼은 이제 사용자가 간단한 프롬프트를 사용하여 개인화된 스토리를 만들고 설명할 수 있으며, 자신의 이야기를 공유할 수 있는 독특하고 매력적인 매체를 제공합니다. 이 최첨단 도구를 살펴보고 싶으시다면 제공된 링크를 방문해 주세요. 충분히 가치 있는 여정이 될 것이라고 확신합니다.