Pesquisadores da Microsoft apresentam VASA-1: transformando o realismo na geração de rostos falantes com inovação baseada em áudio
A utilização de rostos falantes sintéticos gerados pela inteligência artificial tem ramificações de longo alcance em inúmeras esferas. Tais aplicações podem melhorar o relacionamento digital, ampliar o acesso para pessoas com deficiências verbais, transformar as práticas educacionais por meio de instrução baseada em IA e fornecer ajuda terapêutica e social em estabelecimentos médicos. Espera-se que a incorporação desta inovação refine as relações homem-computador e redefina uma infinidade de indústrias.
Vários métodos têm sido propostos para gerar faces falantes a partir de áudio, porém, essas técnicas não são capazes de atingir o nível de autenticidade presente na fala natural. Embora tenha havido progresso na sincronização precisa dos lábios, outros aspectos importantes, como movimentos faciais expressivos e nuances sutis, são frequentemente ignorados, levando a resultados rígidos e pouco convincentes. Alguns pesquisadores tentaram abordar o movimento realista da cabeça, mas permanece uma discrepância notável quando comparado aos padrões reais de movimento humano. Além disso, a geração eficiente é essencial para aplicações em tempo real; no entanto, os requisitos computacionais dificultam a implementação na prática. Para colmatar esta divisão, devem ser desenvolvidos novos algoritmos que possam equilibrar eficazmente a síntese de alta qualidade e os requisitos de baixa latência para sistemas interactivos.
A Microsoft lançou o VASA, uma estrutura inovadora que gera rostos falantes realistas, equipados com habilidades afetivas visuais atraentes por meio da fusão de uma imagem estática e uma gravação de áudio falada. A versão inicial desta tecnologia, conhecida como VASA-1, demonstra sincronização labial altamente precisa, ao mesmo tempo que reproduz com eficácia várias sutilezas faciais e movimentos orgânicos da cabeça para aumentar a credibilidade e a vitalidade. Alguns avanços notáveis incorporam uma abordagem baseada em difusão projetada para dinamismo facial abrangente e geração de movimento da cabeça dentro de um espaço latente facial, que é derivado de espaços latentes faciais expressivos e bem desembaraçados derivados de vídeo.
O objetivo principal do VASA é criar vídeos altamente realistas apresentando o rosto de um indivíduo específico, sincronizando-os com uma trilha de áudio inserida. Para atingir esse objetivo, o sistema dá especial importância à renderização de imagens claras, movimentos precisos dos lábios, expressões faciais expressivas e posições naturais da cabeça. O processo incorpora sinais de orientação opcionais durante a criação. Ao gerar movimentos faciais e de cabeça holísticos, esses aspectos são produzidos dentro de um espaço latente que é influenciado pelo conteúdo de áudio. Ao construir uma representação latente específica da face, os transformadores de difusão facilitam a geração de movimento. Dicas suplementares, como características de áudio e direção dos olhos, aumentam ainda mais os elementos controláveis. Durante a etapa de inferência, são extraídas características distintivas relacionadas à aparência e à identidade, seguida pela produção de padrões de movimento sequenciais resultando no resultado final.
LISA foi avaliada em relação a várias técnicas atuais de animação facial baseadas em áudio, como MakeItTalk, Audio2Head e SadTalker, usando dois conjuntos de dados de benchmark populares, nomeadamente VoxCeleb2 e OneMin-32. Os resultados mostraram que o LISA superou essas abordagens concorrentes em termos de sincronização audiovisual, alinhamento de postura e erro de reconstrução de vídeo, o que é indicativo de sua qualidade aprimorada e representação realista quando comparado a videoclipes sintéticos e genuínos.
A inovação recente da Microsoft, conhecida como VASA-1, é um modelo inovador de geração de rostos falantes baseado em áudio que utiliza uma única imagem e entrada de áudio para produzir sincronização labial altamente realista, expressões faciais dinâmicas e movimentos naturais da cabeça. Comparado aos métodos atuais de última geração, este modelo apresenta qualidade de vídeo superior, mantendo altos níveis de eficiência computacional. O principal avanço do VASA-1 reside em sua nova abordagem para gerar dinâmica facial e movimento da cabeça através de um espaço latente facial unificado e expressivo. Esses avanços têm o potencial de revolucionar a interação entre humanos e entre humanos e computadores em vários campos, como comunicação, educação e saúde.
Confira o Artigo e o Projeto. Todo o crédito desta pesquisa vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir no Twitter. Junte-se ao nosso canal Telegram, canal Discord e grupo LinkedIn.
Convidamos cordialmente aqueles que apreciam os nossos esforços a subscreverem a nossa newsletter, pois é uma excelente plataforma para se manterem informados sobre os nossos últimos desenvolvimentos e atualizações que acreditamos irão encantar ainda mais o nosso valioso público.
Não perca a oportunidade de fazer parte de nossa extensa comunidade de aprendizado de máquina no Reddit, que possui uma base de membros superior a 40.000 indivíduos.
Para parceria de conteúdo, preencha este formulário aqui.
Assine nosso boletim informativo de pesquisa de IA em rápida expansão, que é regularmente lido por indivíduos conceituados vindos de instituições de prestígio como Google, NVIDIA, Meta, Universidade de Stanford, Instituto de Tecnologia de Massachusetts, Microsoft e inúmeras outras.
*️⃣ Link da fonte: