텐센트와 시드니 U의 GPT4Video: 통합 멀티모달 대형 언어, LM의 비디오 생성 기능을 크게 향상시켰습니다.
다중모달 대규모 언어 모델(MLLM) 영역에서 입력 기반 다중모달 이해와 관련해서는 상당한 발전을 이뤘지만, 다중모달 콘텐츠 생성에 있어서는 눈에 띄는 격차가 존재합니다.
이러한 격차를 해소하기 위해 텐센트 AI 연구소와 시드니 대학교는 협력하여 지침에 따른 이해와 안전을 고려한 콘텐츠 제작을 위해 특별히 설계된 포괄적인 멀티모달 대규모 언어 모델인 GPT4Video에 대한 연구 결과를 발표했습니다. 이 혁신적인 접근 방식은 대규모 언어 모델(LLM)이 문맥 정보를 강력하게 파악하면서 비디오 자료를 효과적으로 처리하고 생성할 수 있는 통합 프레임워크를 제공합니다.
조사 그룹의 주요 성과는 다음과 같이 간결하게 요약할 수 있습니다:
동영상 이해 및 생성 기능을 갖춘 다목적 프레임워크인 GPT4Video의 소개. 비디오 생성의 안전성을 향상시키기 위해 설계된 간단하고 효과적인 미세 조정 방법을 제안하여 일반적으로 사용되는 RLHF 접근 방식에 대한 매력적인 대안을 제공합니다. 멀티모달 LLM 영역에서의 향후 노력을 촉진하기 위한 데이터 세트 공개.
GPT4Video는 멀티모달 입력을 처리하는 데는 매우 능숙하지만 멀티모달 출력을 생성하는 데는 부족한 현재 멀티모달 대형 언어 모델(MLLM)의 단점을 보완하는 솔루션입니다. 설계는 세 가지 필수 요소로 구성됩니다:
제안된 솔루션은 비디오 특징 추출기와 추상화기를 사용하여 LLM의 단어 임베딩 프레임워크 내에서 비디오 데이터를 처리하고 동기화하는 비디오 이해 모듈을 통합합니다. 이 시스템은 LLaMA의 아키텍처를 활용하고 초기 사전 학습 파라미터를 유지하면서 LoRA와 같은 파라미터 효율적 미세 조정 기술을 구현합니다. 또한 다양한 소스에서 파생된 포괄적인 지침 세트를 사용하여 텍스트-비디오 모델 갤러리의 모델에 대한 프롬프트를 생성하도록 LLM을 훈련하는 비디오 생성 모듈로 구성되어 있습니다.
팀은 고정된 ViT-L/14 모델을 활용하여 원시 비디오 특징을 추출한 다음, 시간적 및 공간적 차원에 걸쳐 정보를 요약하는 비디오 추상화 모듈을 통해 압축하는 것으로 절차를 시작합니다. 이 시스템은 맞춤형 비디오 및 안전에 초점을 맞춘 데이터를 사용하여 LoRA를 통해 효과적으로 미세 조정된 고정된 LLaMA 모델에 의존하는 GPT4Video의 핵심을 채택함으로써 비디오를 해석하고 적절한 비디오 프롬프트를 생성할 수 있는 기능을 갖추고 있습니다.이러한 비디오 프롬프트는 이후 텍스트-비디오 모델 갤러리에서 클립을 생성하는 데 사용됩니다.
개방형 질문-답변, 비디오 캡션, 텍스트-비디오 생성 등 다양한 멀티모달 벤치마크 실험을 통해 GPT4Video의 광범위한 적용 가능성과 잠재력이 입증되었습니다. 또한 GPT4Video는 멀티미디어 콘텐츠에 대한 포괄적인 프롬프트를 생성하기 위해 대규모 언어 모델의 강력한 문맥 요약 및 언어 표현 기능을 활용할 수 있는 역량을 보여줍니다.
실제로 GPT4Video는 최첨단 비디오 이해 및 생성 기능의 완벽한 통합을 통해 대규모 언어 모델에서 상당한 발전을 이루었습니다. 이는 다양한 모달리티에 대한 탁월한 성능으로 강조되며, 이는 전반적인 효율성을 강조합니다.
코드는 프로젝트의 GitHub 에서 확인할 수 있습니다. 논문 GPT4Video: 에 대한 이해 및 안전 인식 생성을 위한 통합 멀티모달 대규모 언어 모델 arXiv .