오디오 언어 모델의 차세대 개척자, NVIDIA의 오디오 플라밍고를 소개합니다.
소리를 인지하고 해석하는 능력은 에이전트와 환경의 상호작용을 가능하게 하는 데 중추적인 역할을 합니다. 대규모 언어 모델은 서면 정보를 처리하고 인사이트를 도출하는 데는 뛰어난 능력을 보이지만, 소리에 대한 적절한 민감성을 갖추지 못했습니다.
단발성 학습 및 대화 기능을 갖춘 혁신적인 오디오 언어 모델", NVIDIA의 전문가 그룹은 문맥 학습, 검색 증강 생성 및 멀티턴 대화 기능을 통합하여 수많은 오디오 이해 작업에서 탁월한 결과를 달성하는 혁신적인 오디오 언어 모델인 Audio Flamingo를 소개했습니다.
이 팀은 아래에 요약된 대로 주목할 만한 성과를 간결하게 설명합니다:
플라밍고 기술을 활용하여 획기적인 기술을 통해 다양한 오디오 이해 작업에서 놀라운 성능을 달성하는 고급 오디오 언어 모델인 오디오 플라밍고를 소개합니다. 우리의 접근 방식은 폐쇄형 및 개방형 오디오 이해 과제 모두에서 탁월한 결과를 보여줍니다. 지능형 클라이언트 측 청취(ICL) 및 정보 검색을 위한 최첨단 전략을 개발하여 선도적인 소수 학습 결과를 얻습니다. 또한, 당사의 시스템은 인상적인 멀티턴 대화 기능을 통해 기존 접근 방식에 비해 우수한 결과를 제공합니다.
i) 슬라이딩 윈도우 메커니즘을 갖춘 오디오 특징 추출 시스템, ii) 오디오 표현을 변경하는 변환 레이어, iii) 인코더와 독립적으로 작동하는 디코더 기반 언어 모델, iv) 네트워크의 여러 부분 간에 선택적 정보 교환을 가능하게 하는 게이트 가능한 주의집중 레이어.
연구진은 오디오 특징 추출 방법론의 기반이 되는 ClapCap(Elizalde et al., 2023b)을 사용하여 7초, 44.1kHz 원시 오디오 데이터를 1024차원 벡터 표현으로 처리합니다. 더 긴 오디오 세그먼트를 수용하기 위해 시간적 정보를 효과적으로 캡처할 수 있는 슬라이딩 윈도우 기술을 구현합니다.
오디오 표현 변환 레이어는 3개의 자체 주의 메커니즘으로 구성되며, 각각 8개의 주의 헤드와 2048의 내부 차원을 갖습니다. 언어적 특징을 포착하기 위해 저자는 약 13억 개의 파라미터와 24개의 개별 언어 모델링 블록을 포함하는 대규모 사전 훈련 모델인 OPT-IML-MAX-1.3B를 활용합니다. 또한 플라밍고에서 파생된 고밀도 레이어를 게이팅하여 모델에 오디오 정보를 처리할 수 있는 기능을 불어넣습니다.
조사자들은 광범위한 기준을 포괄하는 폐쇄형 및 개방형 평가를 통해 오디오 플라밍고에 대한 광범위한 평가를 실시했습니다. 그 결과, 이 기술의 단독 사례는 전반적인 성능 측면에서 이전에 인정받은 최첨단 모델을 능가했으며, 특히 표준 벤치마크보다 주목할 만한 개선을 보인 대화 기능에서 탁월한 결과를 보였습니다.
개발팀은 오디오 플라밍고의 훈련 및 추론 코드를 모두 오픈소스화할 계획이며, 데모 웹사이트는 https://audioflamingo.github.io/ 에서 확인할 수 있습니다.
논문 오디오 플라밍고: 소수의 학습 및 대화 능력을 갖춘 새로운 오디오 언어 모델 arXiv 에 게재되어 있습니다.