Pesquisadores do Google revelam ‘VLOGGER’, uma IA que pode dar vida a fotos

Os pesquisadores do Google desenvolveram um novo sistema de inteligência artificial que pode gerar vídeos realistas de pessoas falando, gesticulando e se movendo – a partir de apenas uma foto. A tecnologia, chamada VLOGGER, depende de modelos avançados de aprendizado de máquina para sintetizar imagens surpreendentemente realistas, abrindo uma gama de aplicações potenciais e ao mesmo tempo levantando preocupações sobre deepfakes e desinformação.
Descrito em um artigo de pesquisa intitulado “VLOGGER: Difusão Multimodal para Síntese de Avatar Incorporado”, o modelo de IA pode tirar uma foto de uma pessoa e um clipe de áudio como entrada e, em seguida, gerar um vídeo que corresponda ao áudio, mostrando a pessoa falando as palavras. e fazer expressões faciais, movimentos de cabeça e gestos com as mãos correspondentes. Os vídeos não são perfeitos, com alguns artefatos, mas representam um salto significativo na capacidade de animar imagens estáticas.
VLOGGER é uma ferramenta inovadora que cria conteúdo de vídeo altamente realista com avatares falantes e orientados por gestos, tudo baseado em apenas uma imagem de entrada. Esta notável tecnologia foi desenvolvida por Enric Corona, conforme indicado em seu site https://enriccorona.github.io.
Um avanço na síntese de cabeças falantes
Os pesquisadores, liderados por Enric Corona do Google Research, aproveitaram um tipo de modelo de aprendizado de máquina chamado modelos de difusão para alcançar o novo resultado. Os modelos de difusão mostraram recentemente um desempenho notável na geração de imagens altamente realistas a partir de descrições de texto. Ao estendê-los ao domínio do vídeo e treinar em um vasto conjunto de dados novos, a equipe conseguiu criar um sistema de IA que pode dar vida às fotos de uma forma altamente convincente.
Ao contrário das abordagens anteriores, a nossa técnica elimina a necessidade de treinamento individualizado, opera sem reconhecimento facial e corte, produz imagens abrangentes que abrangem a totalidade da figura, em vez de focar apenas no rosto ou na boca, e é responsável por uma ampla gama de circunstâncias, como torso discernível ou identidades de sujeitos variadas, que são componentes essenciais para simular com precisão a comunicação humana. Isso está de acordo com as declarações dos pesquisadores.
Um fator significativo para alcançar o sucesso foi a criação de um banco de dados substancial denominado MENTOR, que incluía mais de 800.000 identidades distintas e abrangeu mais de 2.200 horas de filmagem – uma expansão considerável em comparação com os recursos anteriores. A natureza extensa deste conjunto de dados permitiu ao VLOGGER desenvolver a capacidade de produzir vídeos retratando indivíduos de diversas origens raciais, faixas etárias, trajes, posturas e ambientes, livres de quaisquer preconceitos discerníveis.
Aplicações potenciais e implicações sociais
A tecnologia inovadora apresenta uma variedade de aplicações cativantes. Esta publicação demonstra a capacidade do VLOGGER de traduzir vídeos para vários idiomas através da simples substituição de faixas de áudio, facilitando a edição suave e complementando quaisquer quadros deficientes em um vídeo, além de gerar clipes abrangentes usando apenas uma fotografia solitária.
As aplicações potenciais desta tecnologia inovadora vão além do domínio do entretenimento, pois é possível imaginar os artistas obtendo representações tridimensionais altamente precisas de sua imagem, que podem ser utilizadas para produzir interpretações inovadoras. Além disso, tem a capacidade de gerar duplicatas digitais hiperrealistas para ambientes virtuais imersivos, como videogames e experiências de RV. Além disso, possui a capacidade de desenvolver auxílios virtuais inteligentes e chatbots com elevados níveis de interatividade e profundidade emocional.
O Google considera o VLOGGER um precursor de “agentes conversacionais incorporados” capazes de interagir com humanos de maneira natural por meio da fala, gesticulações e contato ocular. Os autores opinaram que o VLOGGER pode servir como uma metodologia independente para apresentações, pedagogia, narração de histórias, correspondência de baixa intensidade na Internet e como meio para relações textuais homem-máquina.
Embora a inteligência artificial ofereça inúmeros benefícios, também existe a possibilidade de sua aplicação incorreta. Por exemplo, os avanços na tecnologia deepfake permitiram a criação de meios de comunicação sintéticos altamente convincentes que podem substituir a aparência de um indivíduo num vídeo pela imagem de outra pessoa. Este desenvolvimento levanta preocupações significativas relativamente à proliferação de informações falsas e de conteúdos fabricados digitalmente.
Uma nova fronteira na pesquisa de IA
Apesar do seu desempenho louvável, o VLOGGER está atualmente limitado em certos aspectos. Seus vídeos de saída tendem a ser comparativamente breves com um cenário imutável. Os personagens virtuais não navegam por um cenário tridimensional. Além disso, embora os maneirismos e estilos de falar retratados por estas figuras virtuais exibam um elevado grau de autenticidade, ainda não atingiram a completa imperceptibilidade quando comparados com o comportamento humano real.
Embora tenha havido avanços notáveis no campo dos modelos de geração de vídeo, o VLOGGER se destaca como particularmente digno de nota. Ao testar o desempenho do VLOGGER em relação a vários benchmarks estabelecidos, os pesquisadores descobriram que ele era excelente em termos de fidelidade visual e consistência em vários frames. Além disso, o VLOGGER demonstrou capacidade superior de preservar a identidade dos indivíduos retratados nos vídeos gerados em comparação com os métodos existentes.
Parece que, à medida que a tecnologia avança, a multimédia produzida pela IA irá permear praticamente todos os aspectos das nossas vidas, tornando cada vez mais difícil discernir se uma comunicação individual através de um vídeo é genuína ou derivada de um algoritmo digital.
VLOGGER oferece uma prévia da realidade iminente, apresentando avanços notáveis na inteligência artificial, ao mesmo tempo em que destaca as crescentes dificuldades em discernir a veracidade das invenções.
*️⃣ Link da fonte:
Pesquisadores do Google , VLOGGER: Difusão multimodal para síntese de avatar incorporado , https://enriccorona.github.io , Enric Corona ,