Contents

A nova arquitetura do transformador pode tornar os modelos de linguagem mais rápidos e eficientes em termos de recursos

Grandes modelos de linguagem, como ChatGPT e Llama-2, são conhecidos por sua capacidade de memória expansiva e requisitos computacionais, que resultam em custos operacionais substanciais. Economias substanciais podem ser alcançadas reduzindo o tamanho desses modelos, mesmo que seja em um valor mínimo.

Para resolver esse problema, pesquisadores da ETH Zurique revelaram uma versão revisada do transformador, a arquitetura de aprendizagem profunda subjacente aos modelos de linguagem. O novo design reduz consideravelmente o tamanho do transformador, preservando a precisão e aumentando a velocidade de inferência, tornando-o uma arquitetura promissora para modelos de linguagem mais eficientes.

Blocos transformadores

Os modelos de linguagem são construídos sobre uma base composta por blocos transformadores, que são consistentes e proficientes no processamento de informações sequenciais, incluindo conteúdo textual.

/pt/images/new-transformer-architecture-can-make-language-models-faster-and-resource-efficient.png

Bloco transformador clássico (fonte: arxiv.org)

o “mecanismo de atenção” e o perceptron multicamadas (MLP). O mecanismo de atenção funciona como uma ferramenta interpretativa, destacando elementos específicos nos dados de entrada, tais como palavras individuais dentro de uma frase, ao mesmo tempo que avalia a sua relevância contextual e prioridade relativa umas às outras. Ao fazer isso, permite ao modelo discernir as relações entre essas palavras, independentemente de elas parecerem próximas ou não.

Seguindo a operação do mecanismo de atenção, que identifica e enfatiza detalhes pertinentes, uma rede neural artificial de tamanho modesto conhecida como MLP é empregada para processamento adicional. Este processo aprimora e refina as informações selecionadas, resultando em uma representação altamente abstrata e intrincada que encapsula conexões intrincadas entre vários elementos do conjunto de dados.

Além dos blocos de construção fundamentais de uma arquitetura de transformador, certas melhorias foram incorporadas para facilitar ainda mais o processo de aprendizagem e enfrentar desafios típicos encontrados em redes neurais profundas. Essas melhorias incluem conexões residuais e camadas de normalização.

À medida que o número de blocos transformadores aumenta para formar um modelo de linguagem, a capacidade desses blocos de reconhecer conexões intricadas nos dados de treinamento torna-se mais refinada, facilitando assim os recursos avançados exibidos pelos modelos de linguagem modernos. Embora os transformadores tenham tido uma influência profunda no campo, a estrutura básica de cada bloco transformador individual não sofreu alterações significativas desde o seu desenvolvimento.

Tornando o transformador mais eficiente

As despesas substanciais associadas ao treinamento e implantação de modelos de transformadores contemporâneos exigem um grande foco na otimização de seus processos de treinamento e inferência", afirmam os investigadores da ETH Zurique.“Quaisquer melhorias nessas áreas podem gerar benefícios orçamentários consideráveis.“Ao simplificar a estrutura do transformador para eliminar elementos desnecessários, não só reduz o número de parâmetros, mas também melhora o desempenho dos modelos.

O estudo conduzido pela equipe estabeleceu que a redução da complexidade do bloco transformador não afeta negativamente a taxa de treinamento ou o resultado nas tarefas subsequentes. As arquiteturas típicas de transformadores consistem em vários cabeçotes de atenção, cada um equipado com um conjunto exclusivo de pares chave-consulta-valor para capturar os relacionamentos entre os elementos de entrada. Ao eliminar os parâmetros de valor e a camada de projeção associada que gera as saídas para o componente perceptron multicamadas, os investigadores conseguiram manter a eficácia do modelo sem qualquer degradação no desempenho.

Além disso, os pesquisadores eliminaram a utilização de conexões de salto, que são habitualmente empregadas para neutralizar o problema do “gradiente de desaparecimento” que comumente surge durante o processo de treinamento de arquiteturas de redes neurais profundas. O referido problema ocorre quando o gradiente se torna demasiado insignificante para produzir qualquer impacto substancial no processo de aprendizagem das camadas iniciais.

/pt/images/new-transformer-architecture-can-make-language-models-faster-and-resource-efficient-1.png

Foi introduzida uma arquitetura de transformador recém-projetada, que incorpora variáveis ​​e fatores de projeção, além de eliminar conexões de salto de sua fonte (conforme arxiv.org).

O design do bloco transformador foi revisado, permitindo o processamento simultâneo das cabeças de atenção e do componente Multi-Layer Perceptron (MLP), o que difere da abordagem sequencial tradicional.

A fim de neutralizar a diminuição dos parâmetros aprendíveis, os investigadores fizeram modificações em vários parâmetros não relacionados à aprendizagem, melhoraram a abordagem de treinamento e introduziram ajustes arquitetônicos. Estas alterações combinadas garantem que o modelo mantém a sua capacidade de aprendizagem, mesmo com uma configuração mais simplificada.

Testando o novo bloco transformador

Os pesquisadores da ETH Zurich conduziram uma avaliação de seu inovador bloco transformador compacto em vários modelos de linguagem com diferentes profundidades. Notavelmente, eles reduziram com sucesso o tamanho típico do transformador em cerca de 16%, mantendo níveis de desempenho comparáveis, resultando em tempos de inferência mais rápidos. Em termos práticos, se aplicado a um modelo colossal como o GPT-3, que compreende 175 bilhões de parâmetros, geraria uma redução substancial de aproximadamente 50 gigabytes no consumo de memória.

Nossos modelos simplificados demonstraram aumento na velocidade de treinamento e capacidade adicional devido ao aumento da profundidade”, afirmam os pesquisadores. Embora bem-sucedido em aplicações de menor escala, a eficácia do método com modelos maiores permanece indeterminada. No entanto, existem possibilidades para refinamento adicional, incluindo a otimização da inteligência artificial. processadores se alinhem com esse projeto arquitetônico simplificado, o que pode resultar em um aumento significativo na influência.

Os investigadores afirmam que o seu empreendimento tem o potencial de facilitar a implementação de estruturas mais simplificadas em aplicações práticas, colmatando assim a disparidade entre os princípios teóricos e as implementações do mundo real no campo da aprendizagem profunda. Além disso, esta abordagem pode ajudar a reduzir as despesas normalmente associadas ao emprego de modelos de transformadores maiores.

*️⃣ Link da fonte:

uma versão revisada do transformador ,