Contents

허깅페이스, 고품질의 제어 가능한 텍스트 음성 변환(TTS) 모델을 위한 추론 및 훈련 라이브러리인 Parler-TTS 출시

Contents

인공 지능 분야는 빠르게 발전하고 있으며 텍스트 음성 변환(TTS) 기술도 크게 개선되었습니다. Parler-TTS 은 고품질의 제어 가능한 TTS 모델의 혁신을 장려하기 위해 설계된 새로운 오픈 소스 추론 및 학습 라이브러리입니다. 윤리적 고려를 염두에 두고 개발된 Parler-TTS 은 권한 기반 데이터 사용과 간단하면서도 효과적인 음성 제어 메커니즘을 우선시하는 프레임워크를 제공함으로써 음성 합성 기술의 새로운 표준을 제시하고 있습니다.

Parler-TTS 는 음성 복제를 둘러싼 윤리적 문제를 해결함으로써 기존 TTS 모델과 차별화됩니다. Parler-TTS 은 잠재적으로 침입할 수 있는 음성 복제 방법에 의존하는 대신 간단한 텍스트 프롬프트를 통해 음성 제어를 수행하여 생성된 음성이 윤리적 지침을 준수하도록 보장합니다. 이 접근 방식은 개인 정보 보호 및 동의 문제를 완화할 뿐만 아니라 맞춤형 음성 생성의 새로운 가능성을 열어줍니다.

이 획기적인 기술의 첫 번째 반복인 Parler-TTS Mini v0.1 은 이 접근 방식의 잠재력을 보여줍니다. Parler-TTS Mini는 10,000시간 분량의 오디오북 녹음으로 구성된 포괄적인 데이터 세트를 기반으로 학습되었습니다. 이 시스템은 최소한의 데이터 요구 사항으로 다양한 말하기 스타일로 고품질 음성을 생성하는 탁월한 능력을 보여줍니다. 이 프로젝트의 성공은 오픈 소스 리소스를 창의적으로 활용하고 TTS 연구를 발전시키기 위해 헌신한 결과입니다.

Parler-TTS의 아키텍처는 세 가지 주요 구성 요소로 구성된 MusicGen 아키텍처를 기반으로 합니다. 첫 번째 구성 요소는 텍스트 설명을 숨겨진 상태 표현에 매핑하는 텍스트 인코더입니다. 두 번째 구성 요소는 이러한 표현을 기반으로 오디오 토큰을 생성하는 디코더입니다. 세 번째 구성 요소는 이러한 토큰을 다시 가청 음성으로 변환하는 역할을 하는 오디오 코덱입니다. 특히 Parler-TTS는 텍스트 설명을 디코더의 교차 주의 레이어에 통합하고 텍스트 프롬프트를 처리하기 위한 임베딩 레이어를 추가하는 등 이 프레임워크에 수정 사항을 도입했습니다. 이러한 조정을 통해 자연스럽고 문체가 다양한 음성을 생성하는 모델의 기능이 향상되었습니다.

프로젝트 진행 과정에서 주목할 만한 성과는 Parler-TTS를 완전한 오픈 소스 플랫폼으로 구축하기로 결정한 것입니다.Parler-TTS 팀은 모든 관련 데이터 세트, 전처리 유틸리티, 학습 코드 및 모델 평가를 광범위하게 액세스할 수 있는 라이선스에 따라 공개하여 음성 합성 기능을 더욱 향상시키는 데 전 세계 연구 커뮤니티의 참여를 유도하고 있습니다. 이러한 오픈 소스 접근 방식은 협업 노력을 촉진하고 텍스트 음성 변환 기술의 지속적인 발전에 기여합니다.

음성 합성 및 인공 지능 개발의 궤적에 대한 Parler-TTS의 파급 효과는 상당하고 광범위합니다. 도덕적 원칙에 초점을 맞추고 오픈 소스 협력자들의 집단적 잠재력을 활용함으로써 Parler-TTS는 단순한 기술 향상을 넘어 사회 내에서 인공지능의 양심적 적용을 둘러싼 대화를 시작합니다.

주요 요점:

Parler-TTS는 프라이버시 침해와 같이 TTS 기술에 만연한 윤리적 문제를 해결하는 동시에 연구 커뮤니티 내의 협력적 혁신을 촉진하는 데 중점을 두고 설계되었습니다. 이 시스템은 비침습적 기술을 채택하고, 허용된 데이터 소스를 활용하며, 간단한 텍스트 명령을 통해 사용자가 제어할 수 있습니다. 또한, MusicGen의 발전된 기능을 통합하고 독점적인 개선 사항을 도입한 적응력 있고 강력한 아키텍처 덕분에 제한된 데이터 세트 크기에도 불구하고 인상적인 결과를 얻을 수 있습니다. 마지막으로, Parler-TTS의 오픈 소스 특성은 광범위한 AI 및 연구 커뮤니티의 참여를 촉진하여 TTS 기술 영역에서 지속적인 개선과 책임감 있는 성장에 기여할 수 있습니다.

뛰어난 맞춤형 텍스트 음성 변환(TTS) 시스템의 추론과 훈련을 모두 지원하는 최첨단 라이브러리인 Parler-TTS를 공개하게 되어 기쁘게 생각합니다.

오픈 소스 TTS 연구 개발을 촉진하기 위해 모든 데이터 세트, 학습 코드 및 첫 번째 반복 체크포인트를 오픈 소스화하고 있습니다: Parler-TTS Mini v0.1 pic.twitter.

- Sanchit Gandhi (@sanchitgandhi99) 2024년 4월 10일

Google, NVIDIA, Meta, 스탠포드 대학교, 매사추세츠 공과대학(MIT), Microsoft 등 저명한 기관의 전문가들이 구독하는 빠르게 확장 중인 AI 연구 뉴스레터를 구독해 보세요.