Contents

SpeechAlign: 기술 상호작용의 자연스러움과 표현력 향상을 위해 사람의 피드백으로 음성 합성을 혁신하는 기술

Contents

음성 합성은 인간의 언어를 모방할 수 있는 기계를 만들기 위한 지속적인 노력을 반영하듯 최근 몇 년 동안 상당한 발전을 이루었습니다. 가상 비서 및 대화형 AI와의 상호 작용이 점점 더 보편화되는 세상에서 인간 커뮤니케이션의 미묘한 차이를 정확하게 포착하는 음성의 필요성은 더욱 절실해지고 있습니다. 이를 위해서는 사람 말의 자연스러운 억양과 굴절에 근접할 뿐만 아니라 음정, 리듬, 표현 범위 등 화자 개개인의 특성에 부합하면서 감정을 효과적으로 전달하는 음성을 생성해야 합니다.

푸단대학교 연구팀이 음성 합성의 핵심인 생성된 음성을 인간의 선호도에 맞게 정렬하는 혁신적인 프레임워크 SpeechAlign 을 개발했습니다. 기술적 정확성을 우선시하는 기존 모델과 달리 SpeechAlign은 사람의 피드백을 음성 생성에 직접 통합함으로써 큰 변화를 가져왔습니다. 이 피드백 루프는 생성된 음성이 기술적으로 건전하고 인간적인 수준에서 공감을 불러일으킬 수 있도록 보장합니다.

SpeechAlign은 ‘황금 토큰’이라고 하는 선호 음성 패턴과 ‘합성’ 대안이라고 하는 덜 선호되는 음성 패턴으로 구성된 데이터 세트를 신중하게 생성하여 사람의 입력으로부터 인사이트를 얻는 체계적인 전략을 채택하고 있습니다. 이 대조적인 컬렉션은 음성 모델을 점진적으로 향상시키는 일련의 미세 조정 절차의 기초를 형성합니다. 이 과정을 거칠 때마다 정량적 측정과 사람의 평가에서 도출된 정성적 평가를 모두 활용하여 인간의 음성 선호도를 보다 정확하게 표현하고 성취도를 결정하는 것이 목표입니다.

/images/speechalign-transforming-speech-synthesis-with-human-feedback-for-enhanced-naturalness-and-expressiveness-in-technological-interactions.png

음성 자연스러움과 품질에 대한 청취자의 주관적 평가와 단어 오류율(WER) 및 화자 유사성(SIM) 같은 객관적 측정치를 포함한 다양한 평가를 통해 SpeechAlign은 탁월한 성능을 보여주었습니다. 그 결과 SpeechAlign을 사용하여 미세 조정된 모델은 기준 모델과 비교했을 때 최대 0.8까지 감소한 경우도 있는 등 WER이 크게 개선된 것으로 나타났습니다. 또한 화자 유사도 점수도 눈에 띄게 향상되어 거의 0.90에 달했습니다. 이러한 인상적인 지표는 기술 발전이 이루어졌음을 증명하며, 사람의 말 속에 내재된 복잡성과 변형을 보다 정확하게 재현할 수 있음을 시사합니다.

/images/speechalign-transforming-speech-synthesis-with-human-feedback-for-enhanced-naturalness-and-expressiveness-in-technological-interactions-1.png

SpeechAlign은 다양한 모델 차원과 데이터 세트에 대해 높은 수준의 적응성을 보여주었습니다.그 결과 기본 접근 방식이 소규모 모델을 개선하고 이전에 접하지 못한 화자에게 개선 사항을 적용할 수 있을 만큼 탄력적이라는 것이 입증되었습니다. 이러한 유연성은 다양한 상황에 걸쳐 음성 합성 혁신을 전파하는 데 매우 중요하며, 특정 사례나 데이터 세트에 국한되지 않고 SpeechAlign과 관련된 이점을 극대화할 수 있도록 보장합니다.

연구 스냅샷

요약하면, SpeechAlign 연구는 기존 모델로는 극복하기 어려웠던 합성 음성을 사람의 기대치에 맞추는 중요한 문제를 해결합니다. 이 접근 방식은 반복적인 자가 향상 프로세스에 사람의 입력을 창의적으로 통합하는 것이 특징입니다. 선호도 뉘앙스에 대한 세심한 이해를 통해 음성 생성 모델을 개선함으로써 단어 오류율(WER) 및 화자 독립성 지표(SIM)와 같은 주요 성과 지표에서 통계적으로 유의미한 개선을 보여줍니다. 이러한 결과는 합성 음성 출력의 진정성과 전달력을 높이는 데 있어 SpeechAlign의 잠재력을 입증합니다.

논문 Github 을 확인하세요. 이 연구에 대한 모든 저작권은 이 프로젝트의 연구진에게 있습니다. 또한 트위터를 팔로우하는 것도 잊지 마세요. 텔레그램 채널, 디스코드 채널, 링크드인 그룹에 가입하세요.

관심사에 맞는 주제를 더욱 포괄적이고 심도 있게 탐구하는 뉴스레터를 구독해 주시면 감사하겠습니다.

40,000명 이상의 회원을 자랑하는 Reddit의 광범위한 머신러닝 커뮤니티의 일원이 되는 것을 잊지 마세요.

Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학, Microsoft 및 기타 수많은 권위 있는 기관의 저명한 전문가들이 열심히 읽고 있는 빠르게 확장 중인 AI 연구 뉴스레터를 구독하세요.