확산 모델을 통해 고품질 오디오 합성에 대한 손쉬운 접근 방식을 제공하는 Google의 E3 TTS
디퓨전 모델은 다양한 이미지 및 오디오 합성 작업에서 탁월한 성능으로 많은 찬사를 받았습니다. 특히 확산 모델에 기반한 텍스트 음성 변환(TTS) 시스템은 최첨단 시스템에 필적하는 고품질 음성 출력을 생성하는 데 괄목할 만한 성공을 거두었습니다. 그러나 중간 기능의 충실도에 대한 과도한 의존과 배포, 훈련 및 구성과 관련된 복잡한 프로세스를 포함하여 현재 TTS 시스템에는 수많은 한계가 존재합니다.
쉬운 엔드투엔드 확산 기반 텍스트 음성 변환"이라는 논문에서 Google의 연구진은 시간적 구조를 유지하기 위해 확산에만 의존하는 텍스트 음성 변환에 대한 혁신적인 접근 방식을 소개했습니다. 이 방법을 활용하여 제안된 모델은 추가적인 중간 단계 없이 일반 텍스트 입력을 처리하고 해당 오디오 파형을 생성할 수 있어 보다 간소화되고 효율적인 프로세스를 구현할 수 있습니다.
E3 텍스트 음성 변환(TTS) 시스템은 텍스트 데이터를 입력으로 받아들이고 비자기회귀 전략을 구현하여 지연 시간 없이 오디오 신호를 생성합니다. 두 가지 기본 구성 요소로 이루어져 있습니다:
기존 BERT 모델을 활용하여 주어진 텍스트 콘텐츠에서 관련 데이터를 식별하고 분리합니다. 그 후, 결과물인 BERT 출력에 대해 확산 UNet 프레임워크가 실행되어 원래의 왜곡된 신호를 반복적으로 개선하고 필터링하여 궁극적으로 처리되지 않은 상태의 원시 파형을 정확하게 표현합니다.
E3 TTS는 최근 대규모 언어 모델의 획기적인 발전의 이점을 활용하고 기존 BERT 모델에서 파생된 텍스트 정보를 음성 합성에 활용합니다. 음소나 자소 등의 표현이 필요했던 이전의 일부 방법과 달리, E3 TTS는 잘 알려진 텍스트 기반 언어 모델의 기능만 사용함으로써 이러한 복잡성을 제거합니다. 텍스트 입력만으로 다양한 언어 영역에 걸쳐 이 모델을 학습시킴으로써 효율적이고 적응력 있는 다국어 접근 방식을 구현할 수 있습니다.
U-Net 아키텍처는 잔여 관계를 활용하는 스킵 연결로 연결된 순차적 다운샘플링 및 업샘플링 섹션으로 구성됩니다. 연구원들은 BERT 출력에서 정보 추출을 강화하기 위해 하강 블록 계층 구조 내에 교차 주의 메커니즘을 통합합니다. 기본 수준에서는 커널의 크기가 시간 단계와 화자 매개변수에 따라 달라지는 적응형 소프트맥스 CNN 필터가 사용됩니다.한편, 다른 세그먼트에서는 각 피처 차원에 대해 별도의 스케일링 및 바이어스 예측 장치를 갖춘 FiLM 변조를 통해 스피커와 템포럴 인덱스가 통합됩니다.
다운샘플링 프로세스는 원치 않는 노이즈를 필터링하고 신호의 주파수를 처리된 BERT 출력과 비슷한 수준으로 낮춰 전반적인 음질을 향상시키는 데 필수적입니다. 반대로 업샘플링 절차는 원래 신호 길이에서 추가 노이즈를 생성합니다.
경험적 데이터에 따르면 E3 텍스트 음성 변환(TTS)은 최첨단 신경망 TTS 시스템에 필적하는 고품질 오디오 출력을 생성할 수 있는 것으로 나타났습니다. 또한 음성 수정 및 프롬프트 기반 생성을 포함한 다양한 제로 샷 애플리케이션을 지원합니다.
이 연구는 BERT 기능을 사용하여 우수한 품질의 오디오를 생성하는 E3 텍스트 음성 변환(TTS) 시스템의 탁월한 성능을 강조합니다. 이 접근 방식은 엔드투엔드 TTS 시스템 개발을 간소화하며 실험적 시험에서 주목할 만한 결과를 입증했습니다.
오디오 샘플은 https://e3tts.github.io 에서 확인할 수 있습니다. 논문 E3 TTS: 쉬운 엔드투엔드 확산 기반 텍스트 음성 변환 arXiv .