Contents

Google AI apresenta um método eficiente de aprendizado de máquina para dimensionar grandes modelos de linguagem (LLMs) baseados em transformadores para entradas infinitamente longas

Contents

A capacidade de recordar acontecimentos passados ​​desempenha um papel crucial na determinação da capacidade intelectual de uma pessoa, pois permite aos indivíduos recorrer a conhecimentos prévios e utilizá-los nas circunstâncias presentes. No entanto, devido ao funcionamento inerente dos seus mecanismos de atenção, tanto as arquitecturas tradicionais do Transformer como as baseadas em LLMs enfrentam restrições quando se trata de recordação contextualmente dependente. Especificamente, esses modelos apresentam uma demanda aumentada por recursos computacionais e uso de memória que aumenta quadraticamente em relação ao tamanho dos dados de entrada.

Os sistemas de memória compressiva oferecem uma abordagem alternativa atraente, destinada a melhorar a eficiência e a escalabilidade para lidar com dependências de dados de longo prazo. Estes sistemas conseguem isto mantendo um conjunto fixo de parâmetros tanto para armazenar como para recuperar informações, em oposição aos mecanismos de atenção convencionais que necessitam de aumentar a capacidade de memória para acomodar sequências de entrada estendidas.

O objetivo do procedimento de ajuste de parâmetros para esta arquitetura cognitiva é incorporar dados novos no armazenamento de longo prazo, preservando ao mesmo tempo sua acessibilidade. No entanto, os atuais modelos de grandes linguagens ainda não implementaram uma técnica abrangente de compressão de memória que equilibre eficiência e eficácia.

Para resolver as deficiências mencionadas acima, um grupo de especialistas do Google apresentou uma metodologia inovadora que permite que os Transformer Large Language Models (LLMs) gerenciem com eficiência sequências de entrada de comprimentos arbitrários, mantendo ao mesmo tempo um consumo de memória e recursos computacionais restritos. Esta abordagem depende de um novo mecanismo de atenção chamado Infin

A conquista inovadora do Infini-Attention reside em sua capacidade de administrar com eficiência o gerenciamento de memória durante o processamento prolongado de sequências. Ao utilizar armazenamento de memória compactada, este modelo mantém um conjunto predeterminado de parâmetros sem a necessidade de expansão de memória à medida que os comprimentos de entrada aumentam. Consequentemente, as despesas computacionais são mantidas em níveis aceitáveis ​​e o uso de memória é controlado.

A equipe relatou que esta abordagem demonstrou eficácia em várias tarefas, incluindo a geração de resumos de livros com entradas que consistem em 500.000 tokens, recuperação de blocos de contexto para sequências que se estendem por até um milhão de tokens e participação em extensos benchmarks de modelagem de linguagem envolvendo grandes quantidades de dados. Para enfrentar esses desafios, foram empregados modelos com contagens variadas de parâmetros, variando entre um bilhão e oito bilhões.

Uma vantagem notável deste método é a sua capacidade de incorporar restrições no uso de memória, permitindo-nos prever e gerenciar os recursos computacionais exigidos pelo modelo. Além disso, com a técnica proposta, o processamento online eficiente de grandes modelos de linguagem (LLMs) torna-se viável, permitindo a análise eficaz de dados sequenciais em cenários em tempo real ou quase em tempo real.

A equipe forneceu uma visão geral concisa de suas principais realizações na forma do seguinte resumo:

Infini-Attention, um mecanismo de atenção inovador, combina perfeitamente atenção causal local com memória compressiva abrangente. Esta nova abordagem não apenas preserva relações contextuais em distâncias curtas, mas também abrange extensões extensas. Ajustando sutilmente o método convencional de atenção de produto escalar em escala, Infin

Em resumo, esta investigação representa um avanço significativo no domínio dos Modelos de Linguagem (LLMs), permitindo-lhes gerir eficazmente dados de entrada substancialmente longos no que diz respeito aos requisitos computacionais e de memória.

Confira o documento. Todo o crédito desta pesquisa vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir no Twitter. Junte-se ao nosso canal Telegram, canal Discord e grupo LinkedIn.

Convidamos cordialmente aqueles que apreciam nossos esforços a assinarem nossa newsletter, pois é um excelente recurso para se manterem informados sobre nossos últimos empreendimentos e atualizações que certamente despertarão seu interesse.

Não perca a oportunidade de fazer parte de nossa extensa comunidade de aprendizado de máquina no Reddit, que possui mais de 40.000 membros.

Você está interessado em alcançar um vasto público de mais de 1,5 milhão de pessoas apaixonadas por inteligência artificial? Não procure mais, pois podemos ajudar a conectá-lo a esta ampla rede. Vamos trabalhar juntos para atingir seus objetivos e alcançar novos patamares no mundo da IA.

Assine nosso boletim informativo em rápida expansão, lido por conceituados pesquisadores de instituições renomadas como Google, NVIDIA, Meta, Stanford, MIT, Microsoft e muitas outras no campo da inteligência artificial.

*️⃣ Link da fonte:

Papel. ,