Eficiência pioneira do RecurrentGemma da DeepMind para modelos abertos de pequenas linguagens
No vasto domínio da inteligência artificial e do processamento de linguagem natural, os Small Language Models (SLMs) fizeram progressos consideráveis. Ao contrário de seus pares mais substanciais, com contagens de parâmetros mais altas e maiores requisitos computacionais, os SLMs exibem um design simplificado, otimizado para funcionalidade excepcional, mesmo em ambientes com recursos limitados.
Enhancing Efficiency in Open Language Models", um grupo de pesquisadores do Google DeepMind apresentou o RecurrentGemma, um novo modelo de linguagem de código aberto desenvolvido na arquitetura Griffin de ponta do Google. Ao minimizar o consumo de memória e agilizar a inferência eficiente em sequências estendidas, isso modelo abre oportunidades interessantes para criar modelos de linguagem compactos, porém poderosos, que podem funcionar de maneira eficaz em ambientes com recursos limitados.
Griffin, que foi apresentado pelo Google em fevereiro de 2024, representa uma nova abordagem para gerar sequências longas de forma eficiente por meio da substituição da atenção global por uma combinação de atenção local e recursões lineares. Para melhorar o seu desempenho, apenas um único ajuste foi feito na arquitetura original do Griffin, onde os embeddings de entrada são dimensionados por um fator equivalente à raiz quadrada das dimensões do modelo.
A arquitetura RecurrentGemma se afasta da atenção global e, em vez disso, emprega uma abordagem sequencial usando recorrências lineares em conjunto com mecanismos de atenção local. Para melhorar seu desempenho, os pesquisadores pré-treinam o modelo RecurrentGemma-2B em um extenso corpus de aproximadamente dois trilhões de tokens. Antes deste regime de treinamento abrangente, o modelo é inicialmente treinado em uma ampla gama de dados gerais em grande escala antes de fazer a transição para um conjunto de dados mais focado e de alta qualidade para refinamento adicional. Para otimizar a geração de resultados responsivos, a equipe utiliza um novo método de aprendizagem por reforço conhecido como RLHF durante o processo de ajuste fino.
O desempenho do RecurrentGemma-2B é avaliado em diversas áreas usando benchmarks automáticos e avaliações humanas. Um aspecto notável de seu desempenho é que ele funciona de forma semelhante ao Gemma em termos de precisão, mas com maior eficiência durante a inferência, especialmente ao processar sequências mais longas.
O código está disponível no GitHub do projeto. O artigo RecurrentGemma: Moving Past Transformers for Efficient Open Language Models está no arXiv.
*️⃣ Link da fonte: