Contents

UNC-채플힐의 연구원들이 CTRL-Adapter를 소개합니다: 모든 확산 모델에 다양한 제어를 적용하기 위한 효율적이고 다재다능한 AI 프레임워크

Contents

디지털 이미지와 비디오의 세심한 관리에 대한 요구로 인해 깊이 맵, 선명한 윤곽, 신체 자세 등의 파라미터를 통해 시각 콘텐츠 생성에 대한 광범위한 권한을 부여하는 컨트롤넷과 같은 혁신이 등장했습니다. 하지만 이러한 발전을 새로운 프레임워크에 통합하려면 일반적으로 상당한 연산 능력이 필요하고 다양한 모델의 피처 공간 내 불일치로 인해 복잡한 수정 작업이 필요합니다.

동적 비디오용 제어 네트워크 개발의 주요 장애물 중 하나는 정적 이미지를 위한 기존 설계입니다. 이러한 한계를 극복하기 위해서는 비디오 생성의 필수 요소인 공간적, 시간적 일관성을 효과적으로 관리할 수 있도록 시스템을 수정해야 합니다. 그러나 이미지 기반 제어망을 개별 비디오 프레임에 직접 적용하면 시간이 지남에 따라 불일치가 발생하여 최종 결과물의 효율성이 떨어지게 됩니다.

UNC-채플힐의 연구원들은 기존 컨트롤넷을 새로운 이미지 및 비디오 확산 모델과 원활하게 통합할 수 있는 혁신적인 프레임워크인 CTRL-Adapter 를 개발했습니다. 이 프레임워크는 컨트롤넷과 확산 모델의 매개변수를 변경하지 않고 작동하도록 설계되어 적응 과정을 간소화하고 광범위한 재교육의 필요성을 크게 줄였습니다.

CTRL-Adapter 은 공간 및 시간 모듈의 조합을 통합하여 비디오 시퀀스의 프레임 간 일관성을 유지하는 프레임워크의 기능을 향상시킵니다. 각 조건의 특정 요구 사항에 따라 통합을 조정하는 다양한 컨트롤넷의 출력을 평균화하여 여러 제어 조건을 지원합니다. 이 접근 방식을 사용하면 생성된 미디어를 미묘하게 제어할 수 있으므로 많은 계산 비용 없이 다양한 조건에 걸쳐 복잡한 수정을 적용할 수 있습니다.

/images/researchers-from-unc-chapel-hill-introduce-ctrl-adapter-an-efficient-and-versatile-ai-framework-for-adapting-diverse-controls-to-any-diffusion-model.png

CTRL-Adapter 의 효과는 광범위한 테스트를 통해 입증되었으며, 이를 통해 비디오 생성 시 제어 기능을 향상시키는 동시에 컴퓨팅 요구 사항을 줄였습니다. 예를 들어 CTRL-Adapter 는 Hotshot-XL, I2VGen-XL, SVD와 같은 비디오 확산 모델에 적용할 경우 DAVIS 2017 데이터 세트에서 최고 수준의 성능을 달성하여 제어 비디오 생성에서 다른 방법보다 뛰어난 성능을 발휘합니다. 컴퓨팅 리소스를 줄이면서도 결과 미디어의 충실도를 높게 유지하며, GPU 시간도 10시간 미만으로 수백 GPU 시간이 필요한 기존 방법을 능가합니다.

CTRL-Adapter 의 다목적성은 희박한 프레임 조건을 처리하고 여러 조건을 원활하게 통합하는 기능으로 확장됩니다. 이러한 다양성을 통해 이미지와 비디오의 시각적 특성을 보다 효과적으로 제어할 수 있으므로 리소스 소비를 최소화하면서 비디오 편집 및 복잡한 장면 렌더링과 같은 애플리케이션을 구현할 수 있습니다. 예를 들어, 이 프레임워크는 이전 시스템에서는 달성할 수 없었던 깊이와 사람의 포즈와 같은 조건을 효율적으로 통합하여 기준 모델에 비해 평균 20~30% 향상된 FID(프리셋 입사 거리)로 고품질의 결과물을 유지할 수 있습니다.

/images/researchers-from-unc-chapel-hill-introduce-ctrl-adapter-an-efficient-and-versatile-ai-framework-for-adapting-diverse-controls-to-any-diffusion-model-1.png

결론적으로, CTRL-Adapter 프레임워크는 제어 이미지 및 비디오 생성을 크게 발전시켰습니다. 기존 컨트롤넷을 새로운 모델에 적용하면 계산 비용이 절감되고 다양한 조건에서 고품질의 일관된 미디어를 생성할 수 있는 기능이 향상됩니다. 여러 컨트롤을 통합된 출력 모델로 통합하는 기능은 디지털 미디어 제작의 혁신적인 애플리케이션을 위한 기반을 마련하여 비디오 및 이미지 생성 기술의 경계를 넓히고자 하는 개발자와 크리에이티브에게 중요한 도구가 될 것입니다.

논문 을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희의 노력에 감사하는 분들을 위해 뉴스레터를 구독해 주시면 더욱 관심을 불러일으킬 수 있는 최신 노력과 업데이트를 소개하는 훌륭한 플랫폼이 될 수 있도록 진심으로 초대합니다.

40,000명 이상의 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 되는 것을 잊지 마세요.

인공지능에 관심이 있는 150만 명 이상의 방대한 잠재고객에게 접근하기 위해 존경받는 조직과 협력하는 방법에 대해 문의하시면 보다 효과적이고 효율적으로 타겟 시장에 도달할 수 있습니다.

Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학(MIT), Microsoft 및 기타 여러 유명 기관의 저명한 연구자들이 열심히 읽고 있는 빠르게 확장되고 있는 AI 연구 뉴스레터를 구독하세요.