Contents

O VideoPrism do Google é um modelo de IA versátil para compreensão de vídeo de uso geral

Contents

Resumo

O Google Research lançou o “VideoPrism”, uma solução inovadora de codificação visual de vídeo, versátil e adequada para inúmeras tarefas de compreensão de vídeo.

A utilização do VideoPrism apresenta uma série de oportunidades para melhorar a compreensão e análise de vídeo. Este modelo demonstra proficiência excepcional na identificação de objetos e ações em vídeos, na localização de materiais de vídeo comparáveis ​​e, quando integrado a um modelo linguístico, no fornecimento de descrições detalhadas e na resposta a consultas sobre o conteúdo do vídeo.

Vídeo: IA do Google

VideoPrism emprega uma estrutura Vision Transformer, que permite ao modelo capturar aspectos espaciais e temporais de vídeos por meio de seus recursos de processamento.

Para treinar o VideoPrism de maneira eficaz, nossa equipe utilizou um conjunto de dados substancial e variado compreendendo 36 milhões de instâncias de pares de vídeo-texto de alto calibre, bem como 582 milhões de clipes exibindo vários graus de ruído ou gerados de forma automatizada sem acompanhamento textual correspondente. Notavelmente, esta coleção é a mais extensa do seu tipo, de acordo com a avaliação do Google.

As representações textuais transmitem conhecimento sobre a aparência dos elementos dos clipes, enquanto o conteúdo cinematográfico transmite inteligência sobre as mudanças visuais.

O processo de treinamento envolveu uma abordagem em duas etapas. Inicialmente, o modelo familiarizou-se com a vinculação do conteúdo do vídeo às descrições textuais correspondentes. Posteriormente, aprimorou sua capacidade de deduzir e preencher quaisquer lacunas presentes na filmagem visual.

Durante um teste abrangendo 33 marcos de compreensão de vídeo, o VideoPrism produziu resultados de ponta em 30 ocasiões, necessitando de esforços de alteração insignificantes por meio de uma versão solitária e imóvel.

/pt/images/googles-videoprism-is-a-versatile-ai-model-for-general-purpose-video-understanding.png

Numa avaliação abrangente conduzida pelo Google, que abrangeu uma série de diversos casos de teste, foi inequivocamente estabelecido que o VideoPrism, um modelo de análise de vídeo de ponta, supera consistentemente os seus antecessores em todos os cenários examinados.

O modelo demonstrou desempenho superior em comparação com outros modelos de vídeo fundamentais em uma série de tarefas, incluindo classificação e localização, ao mesmo tempo em que teve um desempenho eficaz quando integrado a modelos de linguagem em larga escala para recuperação de vídeo, geração de legendas e resposta a perguntas baseadas em vídeos.

Recomendação

O VideoPrism demonstrou um desempenho impressionante em vários domínios científicos, incluindo investigação comportamental animal e estudos ecológicos, superando as capacidades de modelos especializados concebidos especificamente para esses fins. Este desenvolvimento apresenta uma oportunidade significativa para melhorar a análise de vídeo em vários campos, de acordo com a perspectiva do Google.

/pt/images/googles-videoprism-is-a-versatile-ai-model-for-general-purpose-video-understanding-1.png

Imagem: Google AI

O grupo investigativo tem grandes aspirações para o impacto futuro do VideoPrism na interação dinâmica entre inteligência artificial e análise de vídeo, catalisando uma mudança de paradigma na utilização de modelos de vídeo em diversos domínios, incluindo exploração científica, pedagogia e progresso médico.

*️⃣ Link da fonte:

,