Stability AI traz nova clareza e potência para geração de áudio AI com Stable Audio 2.0

A Stability AI continua a impulsionar sua visão de IA generativa com o modelo de áudio Stable Audio 2.0 hoje.
A notoriedade da Stability AI decorre em grande parte de seus inovadores modelos de difusão estável de texto para imagem; no entanto, este é apenas um exemplo da extensa gama de modelos em desenvolvimento da empresa. Em setembro de 2023, o Stable Audio foi lançado inicialmente, permitindo aos usuários produzir breves segmentos de áudio simplesmente inserindo um comando textual conciso. A versão mais recente do Stable Audio, versão 2.0, expande esses recursos, permitindo a geração de gravações de áudio refinadas com duração de até três minutos, o que ultrapassa o limite anterior de 90 segundos oferecido pelo lançamento original do Stable Audio.
Além de oferecer suporte a texto para áudio, o Stable Audio 2.0 também oferecerá suporte à geração de áudio para áudio, onde os usuários carregam uma amostra que desejam usar como prompt. A Stability AI está disponibilizando o Stable Audio para uso limitado gratuitamente no site do Stable Audio, com acesso à API disponível em breve para que os desenvolvedores possam criar serviços.
A recente revelação do Stable Audio 2.0 representa o primeiro lançamento significativo de produto da Stability AI após seu cofundador e ex-CEO, Emad Mostaque, deixar o cargo inesperadamente no final de março. Apesar desta mudança de liderança, a organização mantém que as operações permanecem consistentes, com o lançamento do Stable Audio 2.0 servindo como prova dessa continuidade.
Lições aprendidas com a versão 2.0 do Stable Audio 1.0
Levando em consideração os valiosos insights obtidos em nosso primeiro esforço na criação de Áudio Estável em 2023, refinamos e aprimoramos nossa abordagem à inteligência artificial, aplicando-a a diversas aplicações além do processamento de áudio. Isso nos permite expandir nossa experiência em aprendizado de máquina e, ao mesmo tempo, continuar a fornecer soluções de ponta para um cenário tecnológico em constante evolução.
Zachary Evans, pesquisador sênior em engenharia de áudio da Stability AI, revelou-nos que durante o lançamento inaugural da versão 1.0 de seu revolucionário sistema de síntese de texto para áudio, foi dada atenção primordial à introdução de um modelo de síntese de voz inovador e altamente preciso, capaz de produzir reproduções de áudio notavelmente realistas e, ao mesmo tempo, manter uma extensão substancial de comunicação verbal coerente.
Ao longo dos nossos esforços de desenvolvimento desde o lançamento inicial, temos sido firmes na nossa busca de melhorar as capacidades musicais do instrumento, aumentando a sua duração de saída, refinando a sua capacidade de resposta a entradas específicas e elevando o seu nível geral de precisão. Essas melhorias foram projetadas com o objetivo de tornar a tecnologia mais adequada para uma ampla variedade de casos de uso diário.
Stable Audio 2.0 possui um recurso inovador que permite gerar composições musicais abrangentes com uma estrutura musical bem definida. Aproveitando sua tecnologia de difusão latente de ponta, esta versão do software elevou suas capacidades ao permitir a criação de faixas contínuas de três minutos que consistem em segmentos introdutórios, de desenvolvimento e de conclusão distinguíveis. Ao contrário de sua iteração anterior, que se limitava a gerar meros trechos em loop ou fragmentos desconexos, esta atualização mais recente oferece músicas totalmente formadas.
Em essência, o Stable Audio 2.0 emprega um modelo de difusão latente (LDM), que utiliza um backbone de transformador, constituindo assim um modelo de “transformador de difusão”. Isso foi implementado após o lançamento beta do Stable Audio 1.1 em dezembro do ano passado, quando o sistema fez a transição de uma arquitetura codificador-decodificador para uma estrutura difusa mais avançada.
Além de melhorar o limite de duração da saída do modelo, empregando uma compressão de dados mais extensa durante o seu processo de treinamento, estendemos efetivamente o limite para três minutos ou mais, preservando ao mesmo tempo velocidades de processamento satisfatórias para inferências.
Transformando amostras de áudio com prompts de texto
O Stable Audio 2.0 vai além da simples conversão de prompts de texto em fala; também facilita a transição perfeita entre diferentes fontes de áudio.
Os usuários têm a capacidade de enviar arquivos de áudio e utilizar comandos verbais para gerar diversas iterações do som, facilitando assim um processo de revisão e modificação contínua através do fornecimento de orientação linguística.
O Stable Audio 2.0 aumenta o alcance dos elementos auditivos que podem ser sintetizados pela inteligência artificial, abrangendo uma gama mais ampla de características sonoras e nuances atmosféricas. Isso permite que os usuários solicitem a criação de ambientes acústicos envolventes, ambientes sutis, multidões movimentadas, paisagens urbanas e outras saídas de áudio variadas. Além disso, o modelo concede aos usuários a capacidade de ajustar a abordagem artística e o timbre emocional das amostras de áudio inseridas e importadas, dotando-os de maior versatilidade de expressão.
Direitos autorais são importantes para áudio da geração AI
Uma questão persistente no domínio da inteligência artificial diz respeito à utilização prudente dos dados de origem para o desenvolvimento e refinamento de modelos de aprendizagem automática.
A Stabilize AI tomou medidas para proteger a propriedade intelectual em seu modelo de áudio recém-desenvolvido, treinando-o exclusivamente com dados licenciados da AudioSparx e implementando um sistema para monitorar o conteúdo carregado para garantir que nenhum material protegido por direitos autorais seja processado sem permissão.
Manter a integridade dos nossos direitos de propriedade intelectual é essencial para garantir o sucesso da comercialização do Áudio Estável, bem como a sua utilização segura por diversas entidades. Atualmente, geramos receita com taxas de assinatura associadas à nossa plataforma web Stable Audio e, em um futuro próximo, ela também estará acessível por meio da Stable Audio Application Programming Interface (API).
A Stable Audio ainda não adotou uma abordagem totalmente aberta para suas operações.
Embora os coeficientes de ponderação para Áudio Estável 2.0 não estejam acessíveis para aquisição imediata, nosso progresso é direcionado para a introdução de modelos de áudio de código aberto em uma data futura neste ano civil, conforme indicado pela declaração do Sr.
*️⃣ Link da fonte: