Contents

Pesquisadores do Google revelam ‘VLOGGER’, uma IA que pode dar vida a fotos

/pt/images/google-researchers-unveil-vlogger-an-ai-that-can-bring-still-photos-to-life.jpg

Os pesquisadores do Google desenvolveram um novo sistema de inteligência artificial que pode gerar vídeos realistas de pessoas falando, gesticulando e se movendo – a partir de apenas uma foto. A tecnologia, chamada VLOGGER, depende de modelos avançados de aprendizado de máquina para sintetizar imagens surpreendentemente realistas, abrindo uma gama de aplicações potenciais e ao mesmo tempo levantando preocupações sobre deepfakes e desinformação.

Descrito em um artigo de pesquisa intitulado “VLOGGER: Difusão Multimodal para Síntese de Avatar Incorporado”, o modelo de IA pode tirar uma foto de uma pessoa e um clipe de áudio como entrada e, em seguida, gerar um vídeo que corresponda ao áudio, mostrando a pessoa falando as palavras. e fazer expressões faciais, movimentos de cabeça e gestos com as mãos correspondentes. Os vídeos não são perfeitos, com alguns artefatos, mas representam um salto significativo na capacidade de animar imagens estáticas.

VLOGGER é uma ferramenta inovadora que cria conteúdo de vídeo altamente realista com avatares falantes e orientados por gestos, tudo baseado em apenas uma imagem de entrada. Esta notável tecnologia foi desenvolvida por Enric Corona, conforme indicado em seu site https://enriccorona.github.io.

Um avanço na síntese de cabeças falantes

Os pesquisadores, liderados por Enric Corona do Google Research, aproveitaram um tipo de modelo de aprendizado de máquina chamado modelos de difusão para alcançar o novo resultado. Os modelos de difusão mostraram recentemente um desempenho notável na geração de imagens altamente realistas a partir de descrições de texto. Ao estendê-los ao domínio do vídeo e treinar em um vasto conjunto de dados novos, a equipe conseguiu criar um sistema de IA que pode dar vida às fotos de uma forma altamente convincente.

Ao contrário das abordagens anteriores, a nossa técnica elimina a necessidade de treinamento individualizado, opera sem reconhecimento facial e corte, produz imagens abrangentes que abrangem a totalidade da figura, em vez de focar apenas no rosto ou na boca, e é responsável por uma ampla gama de circunstâncias, como torso discernível ou identidades de sujeitos variadas, que são componentes essenciais para simular com precisão a comunicação humana. Isso está de acordo com as declarações dos pesquisadores.

Um fator significativo para alcançar o sucesso foi a criação de um banco de dados substancial denominado MENTOR, que incluía mais de 800.000 identidades distintas e abrangeu mais de 2.200 horas de filmagem – uma expansão considerável em comparação com os recursos anteriores. A natureza extensa deste conjunto de dados permitiu ao VLOGGER desenvolver a capacidade de produzir vídeos retratando indivíduos de diversas origens raciais, faixas etárias, trajes, posturas e ambientes, livres de quaisquer preconceitos discerníveis.

Aplicações potenciais e implicações sociais

A tecnologia inovadora apresenta uma variedade de aplicações cativantes. Esta publicação demonstra a capacidade do VLOGGER de traduzir vídeos para vários idiomas através da simples substituição de faixas de áudio, facilitando a edição suave e complementando quaisquer quadros deficientes em um vídeo, além de gerar clipes abrangentes usando apenas uma fotografia solitária.

As aplicações potenciais desta tecnologia inovadora vão além do domínio do entretenimento, pois é possível imaginar os artistas obtendo representações tridimensionais altamente precisas de sua imagem, que podem ser utilizadas para produzir interpretações inovadoras. Além disso, tem a capacidade de gerar duplicatas digitais hiperrealistas para ambientes virtuais imersivos, como videogames e experiências de RV. Além disso, possui a capacidade de desenvolver auxílios virtuais inteligentes e chatbots com elevados níveis de interatividade e profundidade emocional.

O Google considera o VLOGGER um precursor de “agentes conversacionais incorporados” capazes de interagir com humanos de maneira natural por meio da fala, gesticulações e contato ocular. Os autores opinaram que o VLOGGER pode servir como uma metodologia independente para apresentações, pedagogia, narração de histórias, correspondência de baixa intensidade na Internet e como meio para relações textuais homem-máquina.

Embora a inteligência artificial ofereça inúmeros benefícios, também existe a possibilidade de sua aplicação incorreta. Por exemplo, os avanços na tecnologia deepfake permitiram a criação de meios de comunicação sintéticos altamente convincentes que podem substituir a aparência de um indivíduo num vídeo pela imagem de outra pessoa. Este desenvolvimento levanta preocupações significativas relativamente à proliferação de informações falsas e de conteúdos fabricados digitalmente.

Uma nova fronteira na pesquisa de IA

Apesar do seu desempenho louvável, o VLOGGER está atualmente limitado em certos aspectos. Seus vídeos de saída tendem a ser comparativamente breves com um cenário imutável. Os personagens virtuais não navegam por um cenário tridimensional. Além disso, embora os maneirismos e estilos de falar retratados por estas figuras virtuais exibam um elevado grau de autenticidade, ainda não atingiram a completa imperceptibilidade quando comparados com o comportamento humano real.

Embora tenha havido avanços notáveis ​​no campo dos modelos de geração de vídeo, o VLOGGER se destaca como particularmente digno de nota. Ao testar o desempenho do VLOGGER em relação a vários benchmarks estabelecidos, os pesquisadores descobriram que ele era excelente em termos de fidelidade visual e consistência em vários frames. Além disso, o VLOGGER demonstrou capacidade superior de preservar a identidade dos indivíduos retratados nos vídeos gerados em comparação com os métodos existentes.

Parece que, à medida que a tecnologia avança, a multimédia produzida pela IA irá permear praticamente todos os aspectos das nossas vidas, tornando cada vez mais difícil discernir se uma comunicação individual através de um vídeo é genuína ou derivada de um algoritmo digital.

VLOGGER oferece uma prévia da realidade iminente, apresentando avanços notáveis ​​na inteligência artificial, ao mesmo tempo em que destaca as crescentes dificuldades em discernir a veracidade das invenções.

*️⃣ Link da fonte:

Pesquisadores do Google , VLOGGER: Difusão multimodal para síntese de avatar incorporado , https://enriccorona.github.io , Enric Corona ,