Contents

딥마인드의 GATS: 멀티모달 기반 모델의 원활한 통합을 위한 새로운 모듈

Contents

우리가 살고 있는 복잡하고 다면적인 영역에서는 다양한 정보가 서면 텍스트, 시각적 이미지, 동영상 등 여러 가지 모드를 통해 전달됩니다. 단일 또는 이중 양식 작업을 처리하는 딥러닝 알고리즘의 기능이 상당히 발전했지만, 광범위한 AI 시스템을 광범위하게 구현하려면 이를 일관성 있게 작동할 수 있는 다목적 적응형 도구의 개발이 필요합니다.

구글의 딥마인드 사업부는 최근 연구에서 사전 학습된 기본 모델을 추가 학습이 가능하든 동결되었든 상관없이 보다 광범위한 멀티모달 네트워크에 원활하게 전환하여 통합하는 것을 목표로 하는 GATS(Gather-Attend-Scatter)라는 혁신적인 접근 방식을 제시했습니다.

/images/deepminds-gats-a-novel-module-for-seamless-integration-of-multimodal-foundation-models.png /images/deepminds-gats-a-novel-module-for-seamless-integration-of-multimodal-foundation-models-1.png

GATS 모듈의 구성은 기존 트랜스포머 레이어와 유사하게 구성되어 있으며 각 레이어 내에 로컬 주의 메커니즘을 갖추고 있습니다. 또한, 이러한 레이어는 외부 네트워크와 전략적으로 통합되어 이들 간의 필수적인 연결 역할을 효과적으로 수행합니다.

/images/deepminds-gats-a-novel-module-for-seamless-integration-of-multimodal-foundation-models-2.png

GATS는 각 개별 모델에서 도출된 활성화를 집계하여 관련 데이터에 집중하고, 초기 활성화 값의 수정을 통해 통합된 출력을 모든 구성 모델에 다시 재분배하는 방식으로 작동합니다. 이 접근 방식의 적응성은 각 계층에서 순차적으로 작동하는 광범위한 딥러닝 아키텍처와의 호환성에서 비롯됩니다. 그 결과, GATS는 다양한 신경망에 폭넓게 적용할 수 있어 강력하고 다재다능한 솔루션을 제공합니다.

GATS 멀티모달 아키텍처를 구현하려면 GATS 모듈의 학습만 필요하므로 기존 지식을 보존하면서 원래 사전 학습된 모델을 미세 조정할 필요가 없습니다. 이러한 특성으로 인해 GATS는 기존의 다양한 소스를 활용하여 멀티모달 모델을 구축하는 데 매우 적응력이 뛰어나고 포괄적인 도구가 될 수 있습니다.

/images/deepminds-gats-a-novel-module-for-seamless-integration-of-multimodal-foundation-models-3.png

연구 그룹은 아타리퐁, 랭귀지테이블, YCB 등 다양한 환경에서 에이전트 테스트를 수행하여 GATS의 효과를 입증했습니다. 이 시연을 통해 GATS가 텍스트와 시각적 요소를 모두 원활하게 통합할 수 있으며, 다양한 양식을 처리할 때 적응력이 뛰어나다는 것이 분명해졌습니다. 또한 이러한 결과는 GATS에서 영감을 받은 모델이 사전 학습된 모델을 효율적으로 활용하고 뛰어난 성능 수준을 달성할 수 있다는 것을 보여주었습니다.

GATS 기반 구조는 높은 수준의 적응성과 확장성을 보여줌으로써 최첨단 조사를 위한 유망한 기회를 열어줍니다. 이 아키텍처는 추가 모달리티의 원활한 통합, 보다 강력하고 확장된 기본 모델의 활용, 다중 모달 데이터의 동기화된 처리 및 분석이 필요한 미개발 애플리케이션의 탐색을 가능하게 함으로써 해당 분야의 혁신을 촉진합니다.

GATS의 등장은 멀티모달 인공 지능 융합 분야에서 인상적인 이정표가 되었습니다. 이 프레임워크는 복잡한 미세 조정 없이도 기존 모델을 손쉽게 통합할 수 있고 유연성을 보여주기 때문에 학자와 전문가 모두에게 강력한 리소스 역할을 할 수 있습니다. 다양한 실험을 통해 그 성능을 뒷받침하는 실증적 증거를 통해 획기적인 활용 가능성을 입증하는 동시에 멀티모달 AI 분야에서 지속적인 발전의 동기를 부여합니다.

논문 GATS: Gather-Attend-Scatter arXiv .