Contents

마이크로소프트의 딥스피드-비주얼챗: 다중 모달 언어 모델의 경계 허물기

Contents

대규모 언어 모델은 다양한 텍스트 기반 작업에서 인상적인 숙련도를 보여 왔지만, 독점적인 텍스트 처리 영역을 넘어 그 범위를 넓히고자 하는 열망이 커지고 있습니다. 멀티 모달 기능을 추구하면 상당한 개선 가능성이 있습니다.

대규모 시각 및 언어 모델(LVLM)은 시각적-언어적 이해를 향상시킬 수 있는 능력으로 인해 상당한 관심을 받아왔습니다. 그럼에도 불구하고 현재의 LVLM은 다중 이미지, 다중 세션 대화에서 서로 얽힌 이미지와 텍스트 입력을 처리하는 데 어려움을 겪고 있으며, 훈련 및 데이터 액세스와 관련된 장애물로 인해 광범위한 통신 컨텍스트에서 유연성과 확장성이 제한적입니다.

‘다중 모달 인과 관계 주의를 통한 다라운드 다중 이미지 인터리브 채팅’에서 Microsoft의 DeepSpeed 전문가 그룹은 다중 모달 기능을 통합하여 대규모 언어 모델을 최적화하는 혁신적인 프레임워크를 도입했으며, 일부 사례에서는 700억 개의 매개 변수에 도달하여 다른 사용 가능한 방법을 훨씬 능가하는 탁월한 확장성을 선보였습니다.

/images/microsofts-deepspeed-visualchat-breaking-boundaries-in-multi-modal-language-models.png

팀은 다음과 같은 방식으로 주요 성과를 설명합니다:

완전 오픈소스 멀티라운드 멀티이미지 프레임워크: 선구적인 완전 오픈 소스 프레임워크 중 하나인 딥스피드-비주얼챗은 다중 라운드 및 다중 이미지 대화가 가능하며, 텍스트와 이미지 입력을 인터리빙할 수 있습니다. 다중 모드 인과 관계 주의(MMCA): 다양한 모달리티에 걸쳐 주의 가중치를 독립적으로 계산하는 멀티 모달 모델을 위한 새로운 MMCA를 고안했습니다. 인터리브 입력을 위한 데이터 블렌딩: 딥스피드-비주얼챗은 인터리브 모달리티와의 대화를 용이하게 하기 위해 기존 데이터 세트에 다양한 데이터 블렌딩 기술을 적용하여 대부분의 오픈 소스 데이터 세트에서 인터리브 텍스트 및 이미지 입력이 부족한 문제를 극복합니다. 전례 없는 확장성: 딥스피드 프레임워크를 활용하여 2B 비주얼 인코더와 LLaMA-2의 70B 언어 디코더로 학습을 강화하여 프레임워크의 놀라운 확장성을 보여줍니다. /images/microsofts-deepspeed-visualchat-breaking-boundaries-in-multi-modal-language-models-1.png

DeepSpeed-VisualChat은 MiniGPT4를 기본으로 활용하는 구조를 사용합니다. 사전 학습된 비전 인코더가 이미지를 인코딩하여 처리한 다음, 선형 변환을 통해 인코딩된 표현을 텍스트 임베딩 레이어 출력의 숨겨진 치수와 정렬합니다. 이러한 정렬을 통해 다양한 입력 유형을 통합할 수 있으며, 이후 LLaMA2와 같은 고급 언어 모델에 전달됩니다.이 프레임워크 내에서 비전 인코더와 언어 모델의 통합은 고정 또는 “고정"된 상태로 유지되어 모든 애플리케이션에서 일관된 성능을 보장합니다.

새로운 매개 변수를 도입하여 복잡성을 악화시키는 기존의 교차 주의(CrA)와 달리 다중 스케일 다중 채널 주의(MMCA)는 여러 스케일에 걸쳐 텍스트 및 이미지 토큰에 대해 서로 다른 주의 가중치 매트릭스를 사용하여 시각 토큰이 스스로 주의하고 텍스트 토큰이 이전 토큰에 주의할 수 있도록 함으로써 이 문제를 완화합니다.

/images/microsofts-deepspeed-visualchat-breaking-boundaries-in-multi-modal-language-models-2.png

경험적 데이터는 확장성 측면에서 현재의 최신 모델을 능가하며, 추가적인 훈련 비용이나 복잡성 없이도 다양한 대화 상황에서 높은 활용성을 보여준다는 것을 입증합니다. 예를 들어, 700억 개의 매개변수 언어 모델까지 확장할 때에도 성능이 매우 뛰어나며, 이는 멀티모달 언어 모델 영역에서 상당한 돌파구를 마련하고 이 분야의 후속 발전을 위한 탄탄한 기반을 마련한 것입니다.

코드는 https://github.com/microsoft/DeepSpeedExamples 의 일부로 곧 공개될 예정입니다. 논문 DeepSpeed-VisualChat: 멀티 모달 인과적 주의를 통한 다라운드 멀티 이미지 인터리브 채팅 arXiv .