Contents

Microsoft 연구원, VASA-1 소개: 오디오 기반 혁신으로 말하는 얼굴 생성의 사실성을 혁신하다

Contents

인공 지능으로 생성된 합성 대화 얼굴의 활용은 다양한 분야에서 광범위한 파급력을 가지고 있습니다. 이러한 애플리케이션은 디지털 성관계를 향상시키고, 언어 장애가 있는 사람들의 접근성을 확대하며, AI 기반 교육을 통해 교육 관행을 변화시키고, 의료 시설 내에서 치료 및 사회적 지원을 제공할 수 있습니다. 이러한 혁신의 통합은 인간과 컴퓨터의 관계를 개선하고 무수히 많은 산업을 재정의할 것으로 기대됩니다.

오디오에서 말하는 얼굴을 생성하는 몇 가지 방법이 제안되었지만, 이러한 기술은 자연스러운 음성에 존재하는 수준의 진정성을 달성할 수 없습니다. 입술을 정확하게 동기화하는 데는 진전이 있었지만, 표정이나 미묘한 뉘앙스와 같은 다른 중요한 측면이 간과되어 딱딱하고 설득력이 없는 결과를 초래하는 경우가 많습니다. 일부 연구자들은 사실적인 머리 움직임을 구현하기 위해 노력했지만 실제 사람의 움직임 패턴과 비교했을 때 눈에 띄는 차이가 남아 있습니다. 또한 실시간 애플리케이션에는 효율적인 생성이 필수적이지만 계산 요구 사항으로 인해 실제로 구현하기가 어렵습니다. 이러한 격차를 해소하려면 인터랙티브 시스템에 필요한 고품질 합성과 짧은 지연 시간 요구 사항의 균형을 효과적으로 맞출 수 있는 새로운 알고리즘을 개발해야 합니다.

Microsoft는 정적 이미지와 음성 오디오 녹음의 융합을 통해 매력적인 시각적 정서 능력을 갖춘 사실적인 말하는 얼굴을 생성하는 혁신적인 프레임워크인 VASA를 도입했습니다. VASA-1로 알려진 이 기술의 초기 버전은 매우 정확한 립싱크와 함께 다양한 얼굴의 미묘함과 유기적인 머리 움직임을 효과적으로 렌더링하여 신뢰감과 생동감을 강화합니다. 일부 주목할 만한 발전은 얼굴 잠재 공간 내에서 포괄적인 얼굴 역동성과 헤드 모션 생성을 위해 설계된 확산 기반 접근 방식을 통합한 것으로, 이는 표현력이 풍부하고 잘 분리된 비디오 파생 얼굴 잠재 공간에서 파생됩니다.

/images/researchers-at-microsoft-introduces-vasa-1-transforming-realism-in-talking-face-generation-with-audio-driven-innovation.png

VASA의 주요 목표는 특정 인물의 얼굴을 입력된 오디오 트랙과 동기화하여 매우 사실적인 비디오를 만드는 것입니다. 이 목표를 달성하기 위해 이 시스템은 선명한 비주얼, 정확한 입술 움직임, 표정, 자연스러운 머리 위치를 렌더링하는 데 특히 중점을 둡니다. 이 프로세스에는 제작 과정에서 선택적 안내 신호가 통합됩니다. 전체적인 얼굴 움직임과 머리 움직임을 생성할 때 이러한 측면은 오디오 콘텐츠의 영향을 받는 잠재적 공간 내에서 생성됩니다. 얼굴별 잠상 표현을 구축함으로써 확산 트랜스포머는 모션 생성을 용이하게 합니다.오디오 특성 및 시선 방향과 같은 보조 단서는 제어 가능한 요소를 더욱 보강합니다. 추론 단계에서 외모 및 신원과 관련된 특징을 추출한 다음 순차적인 동작 패턴을 생성하여 최종

/images/researchers-at-microsoft-introduces-vasa-1-transforming-realism-in-talking-face-generation-with-audio-driven-innovation-1.png

LISA는 두 개의 인기 벤치마크 데이터 세트인 VoxCeleb2와 OneMin-32를 사용하여 MakeItTalk, Audio2Head, SadTalker 등 여러 오디오 기반 얼굴 애니메이션 기술과 비교 평가되었습니다. 그 결과, LISA는 시청각 동기화, 자세 정렬, 비디오 재구성 오류 측면에서 경쟁 방식보다 우수한 성능을 보였으며, 이는 합성 및 원본 비디오 클립과 비교했을 때 향상된 품질과 실제와 같은 표현을 나타냅니다.

/images/researchers-at-microsoft-introduces-vasa-1-transforming-realism-in-talking-face-generation-with-audio-driven-innovation-2.png

VASA-1로 알려진 Microsoft의 최근 혁신은 단일 이미지와 오디오 입력을 활용하여 매우 사실적인 립싱크, 역동적인 얼굴 표정, 자연스러운 머리 움직임을 생성하는 획기적인 오디오 기반 말하는 얼굴 생성 모델입니다. 이 모델은 현재의 최신 방식에 비해 높은 수준의 계산 효율성을 유지하면서 뛰어난 비디오 품질을 보여줍니다. VASA-1의 핵심 혁신은 통합되고 표현력이 풍부한 얼굴 잠재 공간을 통해 얼굴의 역동성과 머리 움직임을 모두 생성하는 새로운 접근 방식에 있습니다. 이러한 발전은 커뮤니케이션, 교육, 의료 등 다양한 분야에서 인간과 인간, 인간과 컴퓨터 간의 상호 작용을 혁신할 수 있는 잠재력을 가지고 있습니다.

논문 프로젝트 을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 노력에 감사하는 분들을 위해 뉴스레터를 구독해 주시기 바랍니다. 뉴스레터는 최신 개발 및 업데이트에 대한 정보를 얻을 수 있는 훌륭한 플랫폼으로, 소중한 고객들을 더욱 만족시킬 것으로 믿습니다.

4만 명이 넘는 회원 수를 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

콘텐츠 파트너십을 원하시면 이 양식을 작성해 주세요…

Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학, Microsoft 등 저명한 기관의 저명한 인사들이 정기적으로 구독하는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.