상하이 AI 랩, 홍콩중문대 및 스탠포드 U, 튜닝 없이 개인화된 텍스트-이미지 확산 모델을 애니메이션 제너레이터로 확장
특별한 튜닝 없이 개인화된 텍스트-이미지 확산 모델에 애니메이션을 적용하세요. AnimateDiff는 별도의 교육이나 모델별 튜닝 없이도 모든 개인화된 텍스트-이미지(T2I) 모델에 애니메이션 이미지를 생성할 수 있는 일반적이고 실용적인 플랫폼입니다.
이 프로젝트의 목표는 최소한의 추가 교육 비용으로 원래의 전문성과 높은 품질 표준을 유지하면서 T2I 모델을 애니메이션 생성기로 전환하는 것입니다.
AnimateDiff의 아키텍처는 후속 처리의 기반이 되는 초기 개인화된 T2I 모델부터 시작하도록 구성되어 있습니다. 처음에는 비디오 데이터를 활용하여 모션 모델링 모듈을 학습시키고, 모션 모듈과 관련된 파라미터만 수정하여 원래 T2I 모델의 특징을 유지합니다. 그 후 추론 단계에서 학습된 모션 모듈을 사용하여 기본 T2I 모델과 관련하여 미세 조정된 개인화된 모델을 원하는 애니메이션 제너레이터로 변환합니다. 최종적으로 변환된 애니메이션 제너레이터는 다양한 개인화된 애니메이션 이미지를 생성합니다.
프로세스를 간소화하고 리소스를 절약하기 위해 최소한의 미세 조정이 필요한 일반화된 모션 모델을 훈련하는 방법을 고안했습니다. 이 작업을 기본 목표에서 분리함으로써 성능 저하 없이 기존의 모든 가중치를 보존할 수 있으므로 광범위한 보정이 필요하지 않습니다.
모션 모델링 모듈은 같은 위치에 위치한 피처 간의 시간적 관계를 효과적으로 포착하는 바닐라 템포럴 트랜스포머를 기본으로 활용합니다. 또한 U자형 확산 네트워크의 각 해상도 레벨에 수용 필드가 도입되어 수용 필드가 크게 확장됩니다. 또한 네트워크가 현재 프레임의 시간적 위치를 인식할 수 있도록 자기 주의 블록 내에 정현파 위치 인코딩이 구현됩니다.
연구진은 AnimateDiff와 Text2Video-Zero 기준선을 대조하는 실험적 분석을 수행했습니다. 그 결과 AnimateDiff가 콘텐츠의 안정적인 흐름을 유지하면서 고품질 이미지를 일관되게 생성하는 것으로 나타났습니다.
이 연구는 다양한 영역에서 폭넓게 적용할 수 있는 애니메이션 커스터마이징을 위한 다재다능하고 효율적인 도구로서 AnimateDiff의 효과를 입증합니다.
코드와 사전 학습된 가중치는 프로젝트 페이지 에서 공개적으로 사용할 수 있습니다.논문 AnimateDiff: 특정 튜닝 없이 개인화된 텍스트-이미지 확산 모델에 애니메이션 적용 arXiv .