수백만 개의 동영상에 시각 언어 모델을 적용하는 Google과 UT 오스틴의 획기적인 접근 방식
방대한 최상위 이미지-텍스트 데이터 세트의 부족으로 인해 이미지 이해 능력의 발전이 저해되어 왔습니다. 그럼에도 불구하고 동영상의 라벨링은 1시간 분량의 영상마다 내러티브 세부 정보를 전사하는 데 약 70시간, 인스턴스별 라벨을 제공하는 데 약 700시간이 소요되는 광범위한 문제를 안고 있습니다. 이러한 제약은 온라인에서 쉽게 접근할 수 있는 충분한 동영상 자료가 있음에도 불구하고 시각 언어 시스템 개발에 큰 걸림돌이 되고 있습니다.
Google과 텍사스 대학교는 최근 ‘수백만 개의 동영상에서 시각 언어 모델 추출하기’라는 제목의 논문에서 이미지 기반 시각 언어 모델을 동영상에 효과적으로 적용하는 혁신적인 기술을 제시했습니다. 이 새로운 전략은 방대한 수의 동영상에 대해 높은 수준의 의사 캡션을 생성하는 것으로, 여러 동영상 언어 벤치마크에서 기존 접근 방식에 비해 우수한 성능을 보여줍니다.
연구 그룹은 주로 이미지-텍스트 데이터에 중점을 두는 WebLI에 능숙한 최첨단 초대형 모델(VLM)인 PaLI-3을 활용하여 연구를 시작합니다. 시각 인코딩 프로세스는 20억 개의 파라미터를 갖춘 ViT-G/14를 통해 이루어지며, 언어 처리 모듈은 30억 개의 파라미터로 구성된 UL-2 기반의 인코더-디코더 아키텍처 구성에 의존합니다. 다소 제한된 비디오-텍스트 데이터 세트의 제약 조건 내에서 이 모델 설계의 효율성을 최적화하기 위해 팀은 모든 구성 요소를 개별적으로 조정하는 방식을 채택하고 있습니다.
초기 단계에서는 언어 요소의 움직이지 않는 상태를 유지하면서 비디오 캡션 정보를 활용하여 시각 인코더를 개선합니다. 이러한 조정은 모델에 변화하는 설정을 가로지르는 민첩성을 부여하는 동시에 기존 언어 디코더의 광범위한 기능을 유지합니다.
이후에는 시각적 인코더를 변경하지 않고 제한된 양의 명령어 기반 데이터를 사용하여 미세 조정을 통해 언어 모델을 개선합니다. 이 과정을 통해 시간과 원인에 대한 추론 능력이 향상되어 장면 수준의 해석을 뛰어넘습니다. 인공 캡션을 통합하여 비디오 수에 따라 확장성이 뛰어난 탄력적인 듀얼 인코더 아키텍처를 구현했습니다. 궁극적으로 당사의 다목적 비디오 언어 모델은 동적 입력 소스를 효과적으로 처리하고 움직임을 중심으로 출력을 생성하여 스크랩된 광범위한 온라인 비디오 컬렉션을 위한 최고 수준의 인공 자막을 제작합니다.
동영상 질의응답(QA) 및 캡션 등 다양한 영상 언어 벤치마크에서 수정된 VLM을 평가한 결과, 현재 이 분야에서 선두를 달리고 있는 탁월한 제로샷 성능을 보여주었습니다. 특히 개방형 NExT-QA에서 이전 결과 대비 2.8%라는 괄목할 만한 개선을 달성했으며, MSR-VTT 제로샷 텍스트-비디오 검색에서도 현재의 최신 접근 방식을 6%라는 큰 폭으로 능가했습니다. 이러한 결과는 비전 언어 모델 개발의 중요한 도약을 의미하며, 비디오 주석의 문제를 해결하고 광범위한 비디오 기반 작업에서 매우 효과적인 성능을 제공합니다.
수백만 개의 비디오에서 시각 언어 모델 추출 arXiv 논문 .