텍스트, 이미지, 비디오, 오디오를 처리하고 생성하는 Microsoft의 멀티모달 CoDi
Contents
Microsoft
이미지, 사운드, 텍스트 등 다양한 입력 양식을 통합된 시맨틱 프레임워크에 통합하는 것이 특징인 CoDi의 독특한 훈련 접근 방식입니다. 이를 통해 다양한 멀티미디어 데이터를 원활하게 조작할 수 있으며, 교차 주의 메커니즘과 환경 모델을 모두 활용하여 다양한 출력 형식을 병렬로 생성할 수 있습니다.
“스케이트보드 타는 테디베어, 4K, 고해상도”
연구원 는 별도의 텍스트, 오디오 및 이미지 프롬프트에서 동기화된 비디오 및 오디오를 생성하는 기능을 보여주는 의 기능에 대한 예시를 제공합니다. 한 예로 “스케이트보드 타는 테디베어, 4k, 고해상도"라는 텍스트 프롬프트와 타임스퀘어 이미지, 빗소리가 입력되었습니다.
합성CoDi 시스템은 타임스퀘어에서 스케이트보드 묘기를 부리는 인형의 짧지만 열등한 시각적 표현과 함께 빗소리와 도시 소란의 조화로운 주변 오디오를 생성했습니다.
추천
CoDi의 활용 가능성은 다양하고 광범위하며, 특별한 도움이 필요한 사람들을 위한 교육 및 접근성을 포함한 광범위한 산업을 포괄합니다.
이 연구는 인간과 컴퓨터의 상호 작용 영역에서 상당한 진전을 이루었으며, 생성 인공 지능 영역에 대한 추가 탐구를 위한 강력한 토대를 마련했습니다.
논문에서 발췌
존경받는 인공 지능 애호가 그룹인 Discord, Reddit 또는 Twitter에 가입하여 활기찬 커뮤니티의 일원이 되어 주시기 바랍니다.