MatFormer: 추가 교육 비용 없이 서브모델을 생성할 수 있는 유니버설 엘라스틱 트랜스포머
트랜스포머 아키텍처는 여러 개의 가속기로 구성된 고성능 컴퓨팅 시스템부터 개별 휴대용 장치에 이르기까지 다양한 플랫폼에서 다재다능함을 보여줍니다. 이러한 이질적인 환경에서 발생하는 다양한 추론 요구 사항을 고려할 때, 연구자와 개발자는 보편성을 위한 역량을 강화하여 핵심 모델을 발전시키는 것이 필수적입니다. 그럼에도 불구하고 훈련과 관련된 막대한 비용으로 인해 모델 규모를 신중하게 선택해야 하며, 이로 인해 재정적 제약으로 인해 광범위한 후속 애플리케이션에 대한 지원이 제한되고 있습니다.
탄력적 추론을 위한 중첩형 트랜스포머"는 Google Research, 텍사스 대학교 오스틴 캠퍼스, 워싱턴 대학교, 하버드 대학교의 전문가들이 협력하여 MatFormer라는 딥 러닝에 대한 혁신적인 접근 방식을 도입했습니다. 이 트랜스포머 기반 아키텍처는 설계 내에 탄력성을 원활하게 통합하여 추가 지침 없이도 여러 개의 컴팩트한 복제본을 생성할 수 있는 단독 종합 모델을 개발할 수 있도록 지원합니다.
저자들은 다음과 같이 주요 업적을 간결하게 열거하고 있습니다:
표준 트랜스포머 내에 중첩된 하위 구조를 통합하고 모든 세분성을 공동으로 최적화하여 단일 범용 탄성 모델을 생성하는 MatFormer를 소개합니다. 범용 MatFormer 모델에서 여러 레이어에 걸쳐 세분성을 믹스앤매치하면 추가 학습 비용 없이 수백 개의 정확하고 일관된 하위 모델을 생성할 수 있습니다. MatFormer는 디코더 전용 언어 모델(MatLM)과 비전 인코더(MatViT) 모두에 효과적으로 일반화되어 표준 Transformer만큼 안정적이고 정확하게 확장하면서 훨씬 더 빠른 자동 회귀 생성 및 대규모 적응형 고밀도 검색을 지원합니다.
MatFormer는 아키텍처 내에 마트료시카 표현 학습이라는 새로운 표현 학습 접근 방식을 통합합니다. 트랜스포머의 주의 및 피드포워드 네트워크(FFN) 블록은 중첩된 하위 구성 요소로 계층적으로 구조화되어 있어 복잡성을 높여 모델의 성능을 향상시킬 수 있습니다.
새로운 시스템 설계를 통해 관심 헤드 내에 계층 구조를 생성할 수 있으며, 가장 중요한 관심 헤드는 여러 하위 모델에 분산되어 있습니다. 이러한 배열은 비슷한 Transformer 기반 모델을 개별적으로 훈련하는 것과 달리 훈련 속도를 약 15% 향상시킵니다. 또한 의도적으로 만들어진 성능 곡선을 준수하면서 여전히 정확한 결과를 제공하는 여러 개의 작은 하위 모델을 효율적으로 추출할 수 있습니다.
연구자들은 실험을 통해 MatFormer의 각 인스턴스에서 입자 크기를 변경하면 추가 최적화 없이도 수많은 정밀한 미니어처 모델을 생성할 수 있음을 관찰했습니다. 이 방법을 “믹스앤매치(Mix’n’Match)“라고 하는데, 이러한 보조 모델 구성은 미세 조정을 통해 특별히 개선되지 않았음에도 불구하고 인상적인 기능을 보여줍니다.
연구진은 실험 조사를 통해 디코더와 인코더는 물론 언어와 시각 등 여러 모달리티를 포함한 다양한 모델 분류에 걸쳐 MatFormer의 견고함을 입증했습니다. 또한 개별적으로 학습된 모델과 비교하여 유사한 검증 손실과 원샷 다운스트림 성능을 유지하면서 15억~26억 개의 매개변수 범위의 소규모 모델을 생성할 수 있는 26억 개의 매개변수 디코더 전용 MatFormer 언어 모델(MatLM)을 통해 규모에 따른 효율성을 입증했습니다.
요약하면, 이 연구는 본질적인 유연성을 갖춘 적응형 트랜스포머 설계인 MatFormer의 잠재력을 보여줌으로써 추가 비용 없이 여러 개의 매우 정확한 전문 모델을 생성할 수 있는 단독 종합 모델을 개발할 수 있게 해줍니다.
MatFormer: 에 대한 탄력적 추론을 위한 중첩 트랜스포머 arXiv .