Contents

동영상 이해의 혁신: Google의 스트리밍 모델을 통한 모든 길이의 실시간 자막 제공

Contents

온라인 동영상 플랫폼의 확산으로 동영상 콘텐츠가 폭발적으로 증가함에 따라 이러한 미디어를 처리하고 해석하는 고급 기술의 중요성이 강조되고 있습니다. 하지만 일반적으로 컴퓨터 비전 모델을 기반으로 하는 현재의 비디오 이해 접근 방식은 일반적으로 몇 초에 불과한 비디오 내의 일부 프레임만 분석하고 이를 미리 정해진 범주나 개념으로 분류하기 때문에 이러한 과제를 해결하지 못하는 경우가 많습니다.

Google의 연구원 그룹은 최근 “스트리밍 고밀도 동영상 캡션"이라는 제목의 논문에서 기존 방법의 한계를 극복하는 고밀도 동영상 캡션에 대한 혁신적인 접근 방식을 제시합니다. 이 새로운 방법을 사용하면 이전에는 불가능하다고 여겨졌던 캡션을 실시간으로 생성하면서 길이에 제한 없이 동영상을 처리할 수 있습니다. 이 획기적인 기술을 통해 고밀도 비디오 캡션 분야는 큰 진전을 이루었습니다.

/images/revolutionizing-video-understanding-real-time-captioning-for-any-length-with-googles-streaming-model.png /images/revolutionizing-video-understanding-real-time-captioning-for-any-length-with-googles-streaming-model-1.png

고급 메모리 시스템과 간소화된 디코더. 이 메모리 모듈은 수신 데이터를 그룹화하는 독특한 방법론을 채택하여 한정된 저장 공간 내에서 다양한 길이의 비디오를 관리할 수 있습니다. 이 모델은 K-평균 클러스터링을 사용하여 각 클러스터에서 미리 정의된 수의 대표 토큰으로 모든 인스턴스를 제 시간에 인코딩함으로써 복잡성과 리소스 사용률 간의 균형을 맞춥니다. 또한, 디코딩에 필요한 계산을 지정된 경계 내에서 제한함으로써 다양한 시퀀스에서 관찰되는 프레임 수의 동적 범위를 효과적으로 관리합니다.

/images/revolutionizing-video-understanding-real-time-captioning-for-any-length-with-googles-streaming-model-2.png /images/revolutionizing-video-understanding-real-time-captioning-for-any-length-with-googles-streaming-model-3.png

메모리 모듈을 보완하는 스트리밍 디코딩 알고리즘은 전체 비디오가 처리되기 전에 모델이 캡션을 예측할 수 있도록 하는 중추적인 혁신입니다. 이 알고리즘은 ‘디코딩 포인트’로 지정된 특정 프레임에서 해당 타임스탬프의 메모리 기능을 기반으로 이벤트 캡션을 예측하고, 이전 디코딩 포인트의 예측을 후속 예측을 위한 문맥적 단서로 통합합니다. 이 접근 방식은 동영상이 계속 전개되는 동안에도 모델이 실시간으로 정확한 캡션을 생성할 수 있도록 지원합니다.
제안된 모델의 효과는 세 개의 유명한 고밀도 비디오 캡션 데이터 세트에서 엄격하게 평가되었습니다: 액티비티넷 캡션, 유쿡2, ViTT. 놀랍게도 이 스트리밍 모델은 더 적은 프레임이나 기능을 사용해야 하는 내재적 제약에도 불구하고 기존의 최신 방법보다 최대 11.0 CIDEr 포인트의 상당한 차이로 뛰어난 성능을 보였습니다.

/images/revolutionizing-video-understanding-real-time-captioning-for-any-length-with-googles-streaming-model-4.png

Google 연구팀이 개발한 획기적인 스트리밍 고밀도 동영상 캡션 모델은 무제한 길이의 동영상을 효율적으로 처리하면서 실시간 캡션을 생성하여 동영상 이해 기술을 혁신적으로 발전시켰습니다. 이 혁신적인 방법은 콘텐츠 분석, 접근성 등 다양한 영역에 걸쳐 잠재적인 파급력을 가진 고밀도 동영상 캡션의 탁월한 벤치마크를 확립했습니다.

코드는 https://github.com/google-research/scenic 에서 공개됩니다. 고밀도 비디오 캡션 스트리밍 논문은 arXiv 에 있습니다.