Contents

구글 연구원, 정지 사진에 생명을 불어넣는 AI '블로거' 공개

/images/google-researchers-unveil-vlogger-an-ai-that-can-bring-still-photos-to-life.jpg

Google 연구원 은 단 한 장의 스틸 사진으로 사람의 말, 몸짓, 움직임을 생생한 동영상으로 생성할 수 있는 새로운 인공지능 시스템을 개발했습니다. 이 기술은 고급 머신 러닝 모델을 사용하여 놀랍도록 사실적인 영상을 합성함으로써 다양한 잠재적 응용 분야를 열어주는 동시에 딥페이크와 잘못된 정보에 대한 우려를 불러일으키고 있습니다.

" 블로거: 구현된 아바타 합성을 위한 멀티모달 확산 " 이라는 제목의 연구 논문에서 설명한 대로 이 AI 모델은 사람의 사진과 오디오 클립을 입력으로 받아 오디오와 일치하는 동영상을 출력하여 사람이 말을 하고 그에 맞는 표정, 머리 움직임, 손짓을 하는 모습을 보여줄 수 있습니다. 동영상은 일부 아티팩트가 있어 완벽하지는 않지만, 정지 이미지에 애니메이션을 적용하는 기능에서 상당한 도약을 이루었습니다.

블로거는 단 하나의 입력 이미지만으로 말하기와 제스처 중심의 아바타가 등장하는 매우 사실적인 동영상 콘텐츠를 제작하는 혁신적인 도구입니다. https://enriccorona.github.io 에서 확인할 수 있듯이 이 놀라운 기술은 Enric Corona가 개발했습니다.

말하는 머리를 합성하는 획기적인 방법

Google Research의 Enric Corona 가 이끄는 연구원들은 확산 모델이라는 일종의 머신러닝 모델을 활용하여 새로운 결과를 얻었습니다. 확산 모델은 최근 텍스트 설명에서 매우 사실적인 이미지를 생성하는 데 놀라운 성능을 보여 왔습니다. 이 모델을 비디오 영역으로 확장하고 방대한 새로운 데이터 세트를 학습시킴으로써 이 팀은 사진을 매우 설득력 있게 표현할 수 있는 AI 시스템을 만들 수 있었습니다.

이전 접근 방식과 달리 이 기술은 개별화된 훈련이 필요 없고, 얼굴 인식 및 자르기 없이 작동하며, 단순히 얼굴이나 입에만 초점을 맞추지 않고 인물 전체를 아우르는 포괄적인 이미지를 생성하고, 식별 가능한 몸통이나 다양한 피사체 정체성과 같은 광범위한 상황을 고려하여 인간의 의사소통을 정확하게 시뮬레이션하는 데 필수적인 요소들을 설명할 수 있습니다. 이는 연구진의 진술에 따른 것입니다.

성공의 중요한 요인은 80만 개 이상의 고유한 신원을 포함하고 2,200시간이 넘는 영상으로 구성된 MENTOR라는 방대한 데이터베이스를 구축한 것으로, 이는 이전 자료에 비해 상당히 확장된 것입니다.이 데이터 세트의 광범위한 특성 덕분에 블로거는 다양한 인종, 연령대, 복장, 자세, 배경을 가진 개인을 편견 없이 묘사하는 동영상을 제작할 수 있는 능력을 개발할 수 있었습니다.

잠재적 응용 분야와 사회적 영향

이 혁신적인 기술은 다양하고 매력적인 응용 분야를 제시합니다. 간단한 오디오 트랙 교체를 통해 동영상을 다양한 언어로 번역하고, 동영상 내 부족한 프레임을 보완하고, 사진 한 장만으로 종합적인 클립을 생성할 수 있는 블로거의 역량을 보여줍니다.

이 획기적인 기술의 잠재적 응용 분야는 엔터테인먼트 영역을 넘어 출연자가 자신의 모습을 매우 정확하게 3차원으로 표현하여 혁신적인 해석을 만들어내는 데 활용할 수 있다는 점을 상상할 수 있습니다. 또한 비디오 게임이나 VR 체험과 같은 몰입형 가상 환경을 위한 초현실적인 디지털 더블을 생성할 수 있는 능력도 갖추고 있습니다. 또한 높은 수준의 상호 작용과 감정적 깊이를 갖춘 지능형 가상 보조 장치와 챗봇을 개발할 수 있는 역량을 보유하고 있습니다.

구글은 브이로거를 음성, 제스처, 눈빛 접촉을 통해 인간과 자연스럽게 상호작용할 수 있는 ‘통합 대화형 에이전트’의 선구자로 인식하고 있습니다. 저자들은 블로거가 프레젠테이션, 교육학, 스토리텔링, 저강도 인터넷 서신을 위한 독립적인 방법론으로 사용될 수 있으며, 인간과 기계 간의 텍스트 대화를 위한 매체로도 활용될 수 있다고 주장했습니다.

인공 지능은 수많은 이점을 제공하지만, 오용될 가능성도 존재합니다. 예를 들어, 딥페이크 기술의 발전으로 동영상 속 개인의 모습을 다른 사람의 모습으로 대체할 수 있는 매우 설득력 있는 합성 미디어를 만들 수 있게 되었습니다. 이러한 발전은 허위 정보와 디지털로 조작된 콘텐츠의 확산에 대한 심각한 우려를 낳고 있습니다.

인공지능 연구의 새로운 개척지

훌륭한 성능에도 불구하고 현재 블로거는 특정 측면에서 한계가 있습니다. 출력되는 동영상은 비교적 짧고 배경이 변하지 않는 경향이 있습니다. 가상 캐릭터는 입체적인 배경을 탐색하지 않습니다. 또한 가상 인물이 묘사하는 매너리즘과 말투는 높은 수준의 진정성을 보여주지만 실제 사람의 행동과 비교할 때 아직 완전히 눈에 띄지 않습니다.

동영상 생성 모델 분야에서 괄목할 만한 발전이 있었지만, 특히 주목할 만한 것은 VLOGGER입니다.연구진은 여러 벤치마크와 비교하여 VLOGGER의 성능을 테스트한 결과, 여러 프레임에 걸쳐 시각적 충실도와 일관성 측면에서 모두 뛰어난 것으로 나타났습니다. 또한, 생성된 동영상에 등장하는 개인의 신원을 보존하는 능력도 기존 방식에 비해 우수한 것으로 나타났습니다.

기술이 발전함에 따라 인공지능으로 제작된 멀티미디어가 우리 삶의 거의 모든 측면에 스며들면서 동영상을 통해 소통하는 개인이 진짜인지 디지털 알고리즘에서 파생된 것인지 구별하기가 점점 더 어려워질 것으로 보입니다.

브이로거는 임박한 현실을 미리 엿볼 수 있는 영상으로, 인공지능의 놀라운 발전을 보여주는 동시에 조작과 진실을 구별하는 것이 점점 더 어려워지고 있음을 강조합니다.