Contents

Tango 2: 텍스트-오디오 합성의 새로운 지평과 뛰어난 성능 지표

Contents

ChatGPT, GEMINI, BARD 등 고급 생성 인공지능 모델의 보급이 증가함에 따라 다양한 분야, 특히 멀티미디어 산업에서 인공지능으로 제작된 콘텐츠에 대한 수요가 증가하고 있습니다. 이러한 수요 증가를 충족하기 위해서는 고품질의 결과물을 빠르게 생성할 수 있는 효율적인 텍스트-오디오, 텍스트-이미지, 텍스트-비디오 모델을 개발해야 합니다. 또한 사용자 입력에 대한 이러한 모델의 반응의 사실성을 개선해야 할 필요성도 시급합니다.

대규모 언어 모델(LLM)에서 생성된 응답이 사람의 기대에 부합하도록 하기 위해 감독된 미세 조정 기반 직접 선호도 최적화(DPO)가 인간 피드백을 통한 강화 학습(RLHF)의 효과적인 대안으로 떠올랐습니다. 이 접근 방식은 확산 모델과 함께 사용하여 노이즈 제거 후 사람의 선호도와 일치하는 결과를 생성하도록 조정되었습니다.

최근 한 학자 그룹은 텍스트-오디오 모델에서 생성된 오디오와 해당 입력 간의 의미적 대응을 향상시키기 위해 DPO-확산 방법론을 활용했습니다. 이들은 DPO-확산 손실 함수를 사용하여 접근 가능한 텍스트-오디오 잠재 확산 모델인 Tango를 최적화하고 Audio-Alpaca로 알려진 합성 벤치마크 데이터 세트를 사용했습니다. 이 데이터 세트는 다양한 청각적 단서와 함께 원하는 소리와 원치 않는 소리 요소로 구성되어 있습니다.

원치 않는 오디오에 생략된 아이디어, 잘못 배치된 시간 순서, 허용되지 않는 사운드 레벨과 같은 불완전성이 존재함에도 불구하고 원하는 오디오는 불일치 없이 함께 제공되는 텍스트 콘텐츠를 정확하게 표현할 수 있습니다. 불쾌한 음향 효과의 생성에는 언어적 설명을 방해하고 박수 점수라는 지표를 사용하여 오디오 품질이 좋지 않은 것을 식별하는 적대적인 기술을 활용하는 것이 포함됩니다.

CLAP 점수 불일치를 고려하여, 우리 그룹은 자동 구성을 통해 생성된 모호한 선호도 쌍을 해결하기 위해 DistilBERT 사전 학습 목적 함수 개선을 위한 특정 데이터 세트를 선택했습니다. 이를 통해 연속적인 선호도 사이의 적절한 거리와 원래 쿼리에 대한 합리적인 근접성을 보장합니다.

경험적 증거를 통해 저희 연구 그룹은 Tango를 개선하기 위해 압축된 Audio-alpaca 데이터셋을 사용하면 향상된 버전인 Tango 2를 개발할 수 있음을 발견했습니다. 이 업그레이드된 모델은 Tango와 AudioLDM2에 비해 주관적 및 객관적 평가 모두에서 우수한 성능을 보였습니다.주목할 만한 점은 DPO 미세 조정 과정에서 다양한 출력 예시에 노출됨으로써 의미 입력과 청각 영역의 상관관계를 파악하는 Tango 2의 기능이 더욱 예민해졌다는 점입니다. 또한 탱고와 동일한 데이터셋을 활용했음에도 불구하고 탱고 2는 생성된 선호도 정보가 상당히 향상되어 실용성을 확인했습니다.

이 팀은 주요 성과에 대한 간결한 개요를 제공했으며, 아래에서 확인할 수 있습니다.

이 논문은 텍스트-오디오 변환을 위해 환경설정 데이터세트를 자동으로 생성하는 경제적인 접근 방식을 제시합니다. 이 방법을 활용하면 모든 프롬프트가 원하지 않는 여러 오디오 응답과 원하는 오디오 응답이 연결된 데이터 세트를 생성할 수 있습니다. 이렇게 생성된 데이터 세트는 이제 학계에서 액세스할 수 있으며, 벤치마킹 목적과 해당 분야의 추가 연구에 유용하게 사용될 수 있습니다. Tango의 데이터 세트에 포함된 것 외에 추가로 배포되지 않은 텍스트-오디오 페어링을 포함하지는 않았지만, Tango 2는 양적 및 질적 지표 모두에서 Tango와 LDM2를 모두 능가했습니다. 이 결과는 제안된 전략이 모델 성능을 효과적으로 향상시킨다는 것을 나타냅니다. 또한, 노이즈 제거를 통한 확산 기반 밀도 추정의 효과는 Tango 2의 성공

논문 프로젝트 을 통해 입증되었습니다. 이 연구에 대한 모든 크레딧은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

저희 서비스에 감사하는 분들을 위해 저희 뉴스레터를 구독해 주시면 저희 업무의 팬들을 더욱 기쁘게 해드릴 최신 업데이트와 개발 상황을 독점적으로 엿볼 수 있습니다.

4만 명이 넘는 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 될 수 있는 기회를 놓치지 마세요.

존경받는 조직과 협력하여 인공지능을 통해 150만 명의 방대한 잠재고객에게 다가갈 수 있는 기회를 잡을 수 있습니다.

Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학(MIT), Microsoft 및 기타 수많은 저명한 기관의 전문가들이 널리 구독하는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.