브레인투뮤직: 음악과 인간의 상호작용의 복잡성을 밝혀내다
음악은 전 세계적으로 지리적, 문화적 장벽을 뛰어넘는 언어적 실체로 인정받고 있습니다. 대규모 언어 모델(LLM)의 등장으로 신경학 연구자들은 인간의 뇌에서 음악의 신경적 표현을 면밀히 조사하게 되었습니다.
인간의 뇌 활동에서 음악 재구성". 이 연구에 사용된 접근 방식은 뇌 활동에서 음악을 재구성하여 원래의 음악적 자극과 매우 유사한 작곡을 가능하게 하는 MusicLM을 기반으로 합니다. 이 혁신적인 기술은 뇌 활동과 인간의 인지 및 정서적 경험 사이의 상관관계에 대한 중요한 통찰력을 제공합니다.
이 글의 저자들은 자신의 작업에서 가장 중요한 측면이라고 생각하는 주요 제출물에 대한 간결한 개요를 제공합니다.
우리의 접근 방식은 기능적 자기 공명 영상(fMRI) 스캔을 활용하여 심층 신경망을 사용하여 높은 수준의 구조화된 음악 표현을 생성하는 것입니다. 이러한 음악 임베딩에는 표현되는 음악에 대한 의미론적 정보가 포함되어 있습니다. 연구 결과에 따르면 음악 생성 모델의 다양한 측면을 사용하여 인간의 청각 피질 활동을 예측할 수 있습니다. 이는 음악에 대한 텍스트 설명이나 청각 피질 내에서 음악 자체의 실제 소리를 기반으로 예측할 수 있는 복셀 간에 상당한 중첩이 있음을 시사합니다.
연구진은 블루스, 클래식, 컨트리, 디스코, 힙합, 재즈, 메탈, 팝, 레게, 록 등 10개의 다양한 장르에 속하는 음악 샘플로 구성된 뉴로이미징 데이터 세트를 준비하여 연구를 시작했습니다. 또한 장르, 악기, 리듬, 분위기와 관련하여 음악을 묘사하는 영어 텍스트 설명을 추가하여 데이터 세트를 향상시켰습니다.
Brain2Music 파이프라인은 선형 회귀를 통해 고차원 기능적 자기 공명 영상(fMRI) 반응을 의미론적 128차원 근육 매핑(MuLan) 임베딩으로 축소하는 것으로 시작됩니다. 그 후, 연구자들은 음악 작곡 생성기인 MusicLM(아고스티넬리 외., 2023)을 사용하여 원래 자극을 나타내는 음악적 렌더링을 생성합니다.
MusicLM은 음악을 생성하는 데 두 가지 프로세스를 사용합니다. 처음에는 멜 스펙트로그램 임베딩을 WaveRNN 토큰의 저수준 시간 인식 표현으로 변환하도록 스스로 학습합니다. 그런 다음 학습된 매핑을 활용하여 이 토큰을 SoundStream 디코더를 통해 오디오로 다시 변환합니다.
재구성된 음악과 원본 자극 간의 유사성을 식별 정확도와 AudioSet 최고 수준의 일치도를 평가하여 실험적으로 조사했습니다. 연구 결과, 우리가 제안한 방법은 fMRI 스캔에서 음악 정보를 추출할 수 있으며 원본 자극과 매우 유사한 매우 정확한 재구성을 생성할 수 있음을 보여주었습니다. 또한, 보이지 않는 음악 장르에 대한 강력한 일반화 능력도 관찰했습니다.
이 연구는 음악과 대뇌 활동의 상관관계에 대한 정량화 가능한 생물학적 분석을 제공하는 선구적인 노력입니다. 저자는 이러한 과정의 재구성과 자극 사이의 동기화를 향상시키기 위한 추가 조사의 필요성을 강조합니다.
논문 Brain2Music: 인간의 뇌 활동에서 음악 재구성하기 arXiv .