마인드 투 스피치: 비침습적 뇌 신호 인식을 통한 신경 커뮤니케이션의 새로운 개척지
신경 활동에서 음성을 해독하는 것은 의료계와 신경과학자 모두의 오랜 열망이었습니다. 이 획기적인 성과는 외상성 뇌 손상, 뇌졸중 또는 퇴행성 신경 질환으로 인해 어려움을 겪고 있는 사람들에게 단순한 의사소통 회복을 넘어 그 의미를 확장합니다.
최근 몇 년간 침습적 기술의 발전과 심오한 기계 학습 기술의 역량에 힘입어 개별 문자, 구문, 음파의 스펙트로그램 표현과 같은 필수 언어 구성 요소의 해독이 용이해졌습니다. 그럼에도 불구하고 이러한 방법을 유기적인 음성 패턴과 비침입적 신경 기록에 사용하기 위해 번역하는 것은 여전히 큰 장애물로 남아 있습니다.
메타 AI, 인리아 사클레이, PSL 대학의 과학자들이 공동으로 수행한 ‘비침습적 뇌 기록에서 음성 인식 해독’ 연구는 자기 뇌파(MEG) 또는 뇌파(EEG)를 통해 얻은 비침습적 신경 측정에서 음성 패턴을 해독하는 인상적인 능력을 보여주었습니다.
연구팀은 비침습적 BCI 분야를 발전시키는 데 있어 주요 성과를 다음과 같이 간결하게 요약할 수 있습니다:
이 연구는 사전 훈련된 음성 모델이 신속한 접근 방식을 통해 인간의 뇌에서 음성 디코딩의 인지 과정을 향상시켜 디코더가 식별한 모든 개별 단어를 철저하게 반복할 필요가 없는 방법을 보여줍니다. 또한 대조 학습 및 다중 피험자 아키텍처와 같은 혁신적인 설계 전략이 연속 뇌파(EEG) 및 자기 뇌파(MEG) 기록 처리를 최적화하는 방법을 설명하여 뇌-컴퓨터 인터페이스(BCI)의 발전을 이끄는 데 필수적인 경험적 결과를 제공합니다. 마지막으로, 분석 결과 생성된 디코더는 주로 낮은 수준의 음향적 특징에 초점을 맞추기보다는 어휘 단위의 추상적 언어 표현을 활용하는 것으로 나타났습니다.
뇌파 검사(EEG) 및 자기 뇌파 검사(MEG)와 같은 비침습적 신경 영상 기술에서 파생된 언어를 해석하는 데 있어 주요 장애물 중 하나는 기록된 신호 내에 상당한 노이즈와 변동성이 존재한다는 것입니다. 이 문제를 해결하기 위해 저희 연구 그룹은 두 가지 핵심 요소로 구성된 다각적인 전략을 고안했습니다.
통합 아키텍처와 심층 음성 표현: 대규모 참가자 집단에서 학습된 단일 아키텍처와 광범위한 음성 데이터 코퍼스에 대한 자가 지도 학습을 통해 획득한 음성 심층 표현을 사용하는 것을 지지합니다. 모델 구조: 제안된 모델은 대조적인 목표로 훈련된 ‘주제 계층’에 쌓인 컨볼루션 신경망으로 구성됩니다. 이 모델은 건강한 참가자가 이야기와 문장을 들을 때 뇌 활동에서 음성을 해독하는 것을 목표로 합니다.
이 모델은 기존의 ‘음성 모듈’인 wav2vec 2.0을 활용하여 3초 오디오 샘플을 처리하여 심도 있는 문맥적 묘사를 생성합니다. 그 후, 이러한 표현과 동일한 간격 동안 발생하는 신경 활동 간의 대응 관계를 설정하여 대비 손실 메커니즘을 통해 최적의 정렬을 달성합니다.
연구자들은 방법론의 효과를 입증하기 위해 175명의 음성 문장이나 내러티브를 수동적으로 듣고 있던 사람들의 신경 반응 데이터가 포함된 공개적으로 접근 가능한 4개의 자기뇌파(MEG) 및 뇌전도(EEG) 데이터 세트를 수집하고 종합했습니다. 특히 뇌의 전류에 의해 생성되는 자기장의 3초짜리 짧은 발췌본만 제공했을 때, 제안된 시스템은 주목할 만한 결과를 달성하여 MEG 판독에서 약 72.5%, EEG 측정에서 약 19.1%의 최대 상위 10위권 정밀도를 달성했습니다.
이 연구는 언어 해독을 목적으로 비침습적 뇌 기록 기술을 활용하려는 노력의 중요한 진전으로, 신경학적 장애로 인한 의사소통 결손으로 고통받는 개인에게 가능성을 제시합니다.
비침습적 뇌 기록에서 음성 인식을 해독하는 논문 Nature .