Contents

에이전트 기반 시스템을 통해 긴 형식의 비디오 이해라는 새로운 SOTA를 달성한 스탠퍼드대학교의 비디오에이전트

Contents

확장된 비디오 콘텐츠의 복잡한 환경을 탐색하는 것은 컴퓨터 시각 인식 영역에서 상당한 장애물이 됩니다. 이 지형을 성공적으로 통과하려면 멀티모달 정보를 능숙하게 처리하고 복잡한 시리즈를 관리하며 해당 시퀀스 전체에서 기민한 판단력을 발휘할 수 있는 다목적 모델이 필요합니다.

대규모 언어 모델을 에이전트로 사용한 긴 형식의 비디오 이해"에서는 스탠포드 대학교의 한 연구팀이 에이전트 기반 시스템을 사용하여 확장된 비디오 콘텐츠에 대한 인간의 이해를 효과적으로 시뮬레이션하는 혁신적인 솔루션인 VideoAgent를 소개합니다. 기존의 최첨단 기술에 비해 향상된 성능과 수완을 보여주는 VideoAgent는 에이전트 중심 전략이 긴 동영상에 대한 이해도를 높일 수 있다는 점을 강조합니다.

/images/stanfords-videoagent-achieves-new-sota-of-long-form-video-understanding-via-agent-based-system.png

VideoAgent는 특정 문의에 효과적으로 응답하기 위해 필수 데이터를 점진적으로 식별하고 집계하는 중앙 집중식 엔터티 역할을 하는 고급 언어 모델인 LLM을 활용합니다. 이와 동시에 비전 언어 기반 모델은 추가 분석을 위해 시각적 정보를 변환하고 추출하는 도구로 사용됩니다.

/images/stanfords-videoagent-achieves-new-sota-of-long-form-video-understanding-via-agent-based-system-1.png /images/stanfords-videoagent-achieves-new-sota-of-long-form-video-understanding-via-agent-based-system-2.png

이 과정은 일련의 상태, 행동, 관찰로 전개되며, LLM이 그 진행을 관리합니다. Initi

LLM은 광범위한 시각 데이터를 즉각적으로 인식하기보다는 논리적 사고와 반복적인 절차에 중점을 둡니다. 시각 언어 모델(VLM)과 인지 언어 모델(CLIP)이 필수 구성 요소로 작용하여 LLM이 시각 정보를 이해하고 맥락적 지식을 더 큰 규모로 검색할 수 있는 능력을 부여합니다.

/images/stanfords-videoagent-achieves-new-sota-of-long-form-video-understanding-via-agent-based-system-3.png /images/stanfords-videoagent-achieves-new-sota-of-long-form-video-understanding-via-agent-based-system-4.png

VideoAgent의 성능은 잘 알려진 두 가지 긴 형식의 동영상 이해 벤치마크, 즉 EgoSchema와 NExT-QA를 사용하여 평가되었습니다. 이 벤치마크에서 VideoAgent는 각각 54.1%와 71.3%의 정확도로 인상적인 결과를 보여주었습니다. 현재 선도적인 접근 방식인 LLoVi와 비교했을 때 VideoAgent는 3.8%와 3.6%의 차이로 더 뛰어난 성능을 보였습니다.

저자들은 확장된 시각적 시퀀스를 처리할 때 인간의 인지를 모방하는 데 초점을 맞춘 에이전트 중심 접근 방식으로의 전환을 의미하는 VideoAgent를 통해 상당한 혁신을 이루었습니다. 이 혁신적인 방법은 단순히 광범위한 컨텍스트 데이터를 해석하는 것보다 추론에 우선순위를 둡니다. 현재의 노력은 긴 동영상을 이해하는 새로운 표준을 제시하는 동시에 이 분야의 추가 연구에 중요한 시사점을 제공할 것으로 기대됩니다.

비디오 에이전트: 대규모 언어 모델을 에이전트로 사용한 긴 형식의 비디오 이해 arXiv 에 있습니다.