DeepSeek-AI apresenta DeepSeek-VL: um modelo de linguagem de visão (VL) de código aberto projetado para aplicações de visão do mundo real e compreensão de linguagem 03-13
Writer revela Palmyra-Vision, uma IA multimodal para reimaginar fluxos de trabalho empresariais 02-27
Este artigo sobre IA revela o futuro dos modelos multimodais de grandes linguagens (MM-LLMs) – compreendendo sua evolução, capacidades e impacto na pesquisa de IA 01-31
Aprimorando habilidades visuais de baixo nível em modelos de linguagem: a Qualcomm AI Research propõe o modelo de linguagem multimodal Look, Remember, and Reason (LRR) 01-30
Adept AI apresenta Fuyu-Heavy: um novo modelo multimodal projetado especificamente para agentes digitais 01-28
Pesquisadores da UCSD e da NYU introduziram a estrutura SEAL MLLM: apresentando o algoritmo de pesquisa visual guiada por LLM V ∗ para aterramento visual preciso em imagens de alta resolução 01-09
Conheça o MobileVLM: um modelo de linguagem de visão multimodal competente (MMVLM) direcionado para execução em dispositivos móveis 01-03
Esta pesquisa de IA apresenta o TinyGPT-V: um MLLMs (modelos multimodais de linguagem grande) com eficiência de parâmetros, adaptado para uma variedade de aplicações de linguagem de visão do mundo real 01-02
Conheça o Unified-IO 2: um modelo de IA multimodal autoregressivo capaz de compreender e gerar imagens, textos, áudio e ações 01-01
Este artigo sobre IA revela InternVL: preenchendo a lacuna em AGI multimodal com um modo de base de linguagem de visão de 6 bilhões de parâmetros 12-28
Pesquisadores da Microsoft e Georgia Tech apresentam VCoder: codificadores de visão versáteis para modelos multimodais de grandes linguagens 12-27
Modelos mundiais gerais: pesquisa de IA em pistas iniciando um novo esforço de pesquisa de longo prazo 12-18
Conheça Gemini: um modelo inovador de IA multimodal do Google que redefine o futuro da inteligência artificial 12-07
Conheça SPHINX: um modelo versátil multimodal de linguagem grande (MLLM) com uma mistura de tarefas de treinamento, domínios de dados e incorporações visuais 11-18