Contents

단 14초 만에 비디오 재구성: 비디오 합성 속도를 44배 높인 Meta AI의 페어리

Contents

제너레이티브 인공 지능의 출현으로 콘텐츠의 원활한 생성과 조작이 가능해지면서 창의성을 발휘할 수 있는 새로운 지평이 열렸습니다. 하지만 제너레이티브 이미지 편집과 관련된 본질적인 복잡성, 특히 광범위한 변형은 이미지 기반 접근 방식을 통해 프레임 단위로 비디오를 처리하면서 시간적 일관성을 유지하는 데 장애물이 되고 있습니다.

빠른 병렬화된 명령어 안내 비디오 대 비디오 합성"이라는 제목의 논문에서 Meta GenAI 연구 그룹은 Fairy라는 혁신적인 비디오 대 비디오 합성 프레임워크를 소개합니다. 이 프레임워크는 120프레임 512x384 비디오를 단 14초 만에 생성하는 등 기존 방식보다 최소 44배 이상 향상된 뛰어난 효율로 고품질 비디오를 제작할 수 있다는 점에서 주목할 만합니다.

/images/reconstructing-videos-in-just-14-seconds-meta-ais-fairy-accelerates-video-synthesis-by-44x.png

Fairy는 자연어로 제공되는 지침을 통해 동영상 편집을 안내하는 데 중점을 두고 있습니다. 텍스트 지시를 통해 원본 자료의 의미적 내용을 준수하여 N개의 프레임으로 구성된 초기 영상에서 새로운 편집 영상을 생성하는 것이 목표입니다. 이미지 기반 편집의 기본 프레임워크를 개선하기 위해 연구자들은 결과물인 비디오의 일관성과 연속성을 강화하기 위한 수단으로 프레임 간 주의 메커니즘을 구현했습니다.

/images/reconstructing-videos-in-just-14-seconds-meta-ais-fairy-accelerates-video-synthesis-by-44x-1.png

Fairy는 크로스 프레임 어텐션을 통해 앵커 프레임 세트에서 후보 프레임으로 값 특징을 전파하여 비디오 간 합성을 효과적으로 수행합니다. 그 결과 생성된 크로스 프레임 어텐션 맵은 유사성 척도로서 기능하여 시퀀스 전체에 걸쳐 특징 표현을 향상시키고 전송합니다. 이 접근 방식은 특징 불일치를 줄임으로써 생성된 비디오에서 보다 일관된 시간성을 얻을 수 있습니다.

Fairy의 크로스 프레임 주의 활용은 전역 특성을 프레임에 분산하여 일관성을 유지하고, 프레임 수 증가로 인한 계산 부담을 완화하며, 프레임 특징 유지를 고정하여 효율성을 개선하고, 병렬 처리를 단순화하여 다중 GPU와 같은 대규모 설정에서도 신속한 생성을 가능하게 합니다.

/images/reconstructing-videos-in-just-14-seconds-meta-ais-fairy-accelerates-video-synthesis-by-44x-2.png /images/reconstructing-videos-in-just-14-seconds-meta-ais-fairy-accelerates-video-synthesis-by-44x-3.png

연구진은 Fairy의 효과를 확인하기 위해 1000개의 합성 비디오를 평가하는 등 광범위한 조사를 수행했습니다. 그 결과 Fairy는 성능 면에서 기존의 최첨단 기술을 능가하는 것으로 나타났습니다. 또한 Fairy는 동시 생성을 위해 8개의 GPU를 사용할 때 이전 접근 방식에 비해 4배 이상 향상되어 주목할 만한 향상을 보였습니다.

Fairy는 이미지 편집 확산 모델의 성능을 활용하는 혁신적인 비디오 편집 방법을 채택하여 시간적 일관성과 탁월한 비디오 구성을 모두 우선시합니다. 그 결과 비디오 합성 영역에서 품질과 생산성 측면에서 탁월한 수준을 유지하면서 초고해상도 영상을 빠른 속도로 생성하는 등 놀라운 기능을 갖춘 최첨단 솔루션이 탄생했습니다.

프로젝트 페이지는 github.io 에 있습니다. 종이 요정: 빠른 병렬화된 명령어 유도 비디오 대 비디오 합성 arXiv .