Contents

딥마인드와 UBC의 지니: 인터랙티브 가상 세계를 위한 제너레이티브 AI의 혁신적인 도약

Contents

의심할 여지 없이, 생성 인공지능의 급속한 발전은 다양한 분야에서 혁신적이고 창의적인 결과물을 만들어내는 인상적인 능력을 입증했습니다. 특히 비디오 생성 영역은 앞으로 더 많은 탐구와 확장이 필요한 매력적인 분야입니다.

최근 비디오 생성 모델의 발전으로 확장 가능성이 입증되었지만, 아직 ChatGPT와 같은 고급 언어 기반 시스템이나 훨씬 더 몰입적인 기술이 제공하는 상호 작용의 깊이와 복잡성을 따라잡기에는 부족합니다.

생성형 대화형 환경"이라는 제목의 논문에서 구글 딥마인드와 브리티시 컬럼비아 대학교의 연구원들이 협력하여 당면한 과제에 대한 혁신적인 솔루션, 즉 설명과 같은 텍스트 기반 입력, 이미지나 그림 같은 합성 시각 요소, 심지어 사진 참조를 사용하여 제어 가능한 광범위한 가상 영역을 손쉽게 만들 수 있는 획기적인 생성형 대화형 환경인 Genie를 소개했습니다. 이 최첨단 기술은 인공 지능 분야의 중요한 발전을 의미하며, 자연어 처리 기능을 통해 사용자에게 디지털 환경을 전례 없이 제어할 수 있는 기능을 제공합니다.

/images/deepmind-ubcs-genie-a-revolutionary-leap-in-generative-ai-for-interactive-virtual-worlds.png

지니의 핵심은 기본 설계 원리인 시공간 변환을 중심으로 첨단 비디오 생성 기술에서 영감을 얻은 혁신적인 아이디어로 구성되어 있습니다. 독창적인 비디오 토큰화 및 인과적 동작 모델을 사용하여 애니메이션 시퀀스를 생성할 수 있는 숨겨진 동작을 추출합니다. 이러한 숨겨진 액션은 비디오 토큰과 함께 동역학 모델에 도입되며, 이 모델에서 MaskGIT는 독립적으로 미래 프레임을 예측하는 데 활용됩니다.

/images/deepmind-ubcs-genie-a-revolutionary-leap-in-generative-ai-for-interactive-virtual-worlds-1.png

연속적인 비디오 프레임 쌍 사이의 숨겨진 활동을 식별하는 역할을 하는 잠재적 동작의 기본 표현, 처리되지 않은 비디오 프레임을 개별 기호로 변환하는 비디오 토큰화, 내재된 동작과 이전 프레임 토큰을 입력으로 활용하여 미래 비디오 프레임을 예측하는 동역학 모델입니다.

이 접근 방식에는 동영상 생성을 위한 표준 자동 회귀 프레임워크를 준수하는 2단계 절차가 포함됩니다. 첫 번째 단계에서는 연구원들이 후속 역학 모델 학습의 기초가 되는 비디오 토큰화 기법을 개발하는 데 집중합니다. 그 다음에는 시각적 입력으로부터 직접 학습되는 잠재 행동 모델을 비디오 토큰에서 작동하는 역학 모델과 함께 공동으로 학습합니다.

/images/deepmind-ubcs-genie-a-revolutionary-leap-in-generative-ai-for-interactive-virtual-worlds-2.png

지니는 영상 데이터만을 활용해 다양한 영역에서 우수한 품질의 고도로 제어된 영상을 생성하는 데 탁월한 능력을 발휘한다는 것이 경험적 증거를 통해 입증되었습니다. 또한, 추출된 잠재 행동 공간은 이전에 관찰되지 않은 영상에서 관찰된 행동을 재현하는 에이전트의 학습을 용이하게 하여 가까운 미래에 다면적이고 전문화된 에이전트를 생성할 수 있는 기반을 마련합니다.

지니: 생성적 대화형 환경 논문 arXiv 에 있습니다.