Contents

O VASA-1 da Microsoft pode falsificar uma pessoa com uma foto e uma faixa de áudio

/pt/images/microsofts-vasa-1-can-deepfake-a-person-with-one-photo-and-one-audio-track.jpg

Ampliar/Um exemplo de imagem da Microsoft para “VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time”. Microsoft

Na terça-feira, a Microsoft Research Asia revelou o VASA-1, um modelo de IA que pode criar um vídeo animado sincronizado de uma pessoa falando ou cantando a partir de uma única foto e uma trilha de áudio existente. No futuro, poderá alimentar avatares virtuais que sejam renderizados localmente e não exijam feeds de vídeo – ou permitir que qualquer pessoa com ferramentas semelhantes tire uma foto de uma pessoa encontrada online e faça com que ela pareça dizer o que quiser.

“Ele abre caminho para engajamentos em tempo real com avatares realistas que emulam comportamentos de conversação humanos”, diz o resumo do artigo de pesquisa intitulado “VASA-1: Faces falantes realistas acionadas por áudio geradas em tempo real”. É o trabalho de Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong e Baining Guo.

A estrutura VASA emprega técnicas de aprendizado de máquina para processar entradas visuais e auditivas, ou seja, uma imagem estática e áudio de fala que o acompanha, a fim de produzir um vídeo animado altamente realista com expressões faciais precisas, movimentos de cabeça e movimentos sincronizados dos lábios correspondentes ao conteúdo de áudio. Ao contrário de certas iniciativas de pesquisa semelhantes da Microsoft, que podem envolver clonagem ou simulação de voz, a VASA utiliza gravações de áudio pré-existentes ou criadas especificamente para fins específicos, em vez de tentar replicar as próprias vozes humanas.

Utilizando avanços em técnicas de aprendizagem profunda, a abordagem inovadora da Microsoft à animação de fala demonstrou uma melhoria notável em termos de naturalismo, alcance emotivo e recursos computacionais em comparação com os seus antecessores. Pela nossa análise, este método parece oferecer uma representação mais convincente do que os sistemas anteriores de animação de imagem única.

Os esforços de pesquisa de IA para animar uma única foto de uma pessoa ou personagem remontam a pelo menos alguns anos, mas, mais recentemente, os pesquisadores têm trabalhado na sincronização automática de um vídeo gerado com uma trilha de áudio. Em fevereiro, um modelo de IA chamado EMO: Emote Portrait Alive, do grupo de pesquisa do Instituto de Computação Inteligente do Alibaba, criou ondas com uma abordagem semelhante ao VASA-1, que pode sincronizar automaticamente uma foto animada com uma faixa de áudio fornecida (eles chamam de “Audio2Video”)..

Treinado em clipes do YouTube

Os pesquisadores da Microsoft treinaram o VASA-1 no conjunto de dados VoxCeleb2 criado em 2018 por três pesquisadores da Universidade de Oxford. Esse conjunto de dados contém “mais de 1 milhão de declarações de 6.112 celebridades”, segundo o site VoxCeleb2, extraído de vídeos enviados ao YouTube. O VASA-1 pode gerar vídeos com resolução de 512×512 pixels em até 40 quadros por segundo com latência mínima, o que significa que pode ser usado para aplicações em tempo real, como videoconferência.

Para mostrar o modelo, a Microsoft criou uma página de pesquisa VASA-1 apresentando muitos vídeos de amostra da ferramenta em ação, incluindo pessoas cantando e falando em sincronia com faixas de áudio pré-gravadas. Eles mostram como o modelo pode ser controlado para expressar diferentes estados de espírito ou mudar o olhar. Os exemplos também incluem algumas gerações mais fantasiosas, como Mona Lisa fazendo rap ao som de uma faixa de áudio de Anne Hathaway cantando uma música “Paparazzi” em Conan O’Brien.

Os pesquisadores dizem que, por razões de privacidade, cada foto de exemplo em sua página foi gerada por IA por StyleGAN2 ou DALL-E 3 (além da Mona Lisa). Mas é óbvio que a técnica também pode ser aplicada a fotos de pessoas reais, embora seja provável que funcione melhor se uma pessoa parecer semelhante a uma celebridade presente no conjunto de dados de treinamento. Ainda assim, os pesquisadores dizem que falsificar humanos reais não é sua intenção.

Em nosso site, estamos realizando pesquisas para desenvolver habilidades emocionais visuais para personagens virtuais que interagem com os usuários. Deve-se notar que este projeto não envolve personificar indivíduos reais na realidade. O objetivo deste esforço é apenas para fins demonstrativos e não tem planos para lançamentos de produtos ou API no momento.

Os rostos humanos gerados por IA propostos pela Microsoft têm potencial para resultados benéficos e prejudiciais. Por um lado, esta inovação pode contribuir para melhorar as oportunidades educativas, colmatando lacunas no acesso aos recursos educativos, aumentando a inclusão em ambientes de aprendizagem e oferecendo apoio através de companheiros virtuais que podem simular respostas empáticas. Por outro lado, existe o risco de explorar estas capacidades para fins maliciosos, como personificar indivíduos, espalhar informações falsas ou perpetuar o cyberbullying através de conteúdos digitais manipulados. É crucial considerar cuidadosamente as implicações éticas e implementar salvaguardas para evitar consequências indesejadas decorrentes do desenvolvimento e implantação desta tecnologia inovadora.

Actualmente, o vídeo sintetizado apresenta certas deficiências, mas pode parecer plausível para alguns indivíduos que desconhecem as suas origens artificiais. Nossa equipe reconhece essas limitações e, portanto, opta por não divulgar o código subjacente que orienta nosso modelo.

Atualmente, condenamos veementemente qualquer tentativa de fabricar conteúdo enganoso ou prejudicial pertencente a indivíduos reais e continuamos comprometidos em utilizar a nossa tecnologia para melhorar a detecção de falsificações. No entanto, deve-se notar que os vídeos produzidos através do nosso método continuam a apresentar imperfeições discerníveis, como evidenciado pelos resultados da nossa análise quantitativa que indicam que alcançar o nível de autenticidade encontrado em vídeos genuínos continua a ser um desafio contínuo.

Embora o VASA-1 sirva como protótipo experimental, os esforços da Microsoft não são solitários nesse sentido. O progresso da IA ​​generativa sugere que versões de código aberto dessa tecnologia podem tornar-se acessíveis no devido tempo, com melhorias contínuas na verossimilhança previstas.

*️⃣ Link da fonte:

Microsoft , VASA-1 , artigo de pesquisa que acompanha , alguns anos, EMO: Emote Portrait Alive , VoxCeleb2 conjunto de dados , muitos exemplos de vídeos , música “Paparazzi” , StyleGAN2 ,