Contents

O futuro do treinamento em redes neurais: insights empíricos sobre transferência μ para escalonamento de hiperparâmetros

Contents

Grandes arquiteturas de redes neurais tornaram-se predominantes tanto no processamento de linguagem natural quanto em tarefas de visão computacional; no entanto, as configurações iniciais e os ajustes da taxa de aprendizagem normalmente empregam abordagens de tentativa e erro, resultando em discrepâncias entre diferentes investigações e escalas de modelos. A este respeito, o método µ-Parametrização (µP) oferece um meio sistemático de regular estes aspectos cruciais através de diretrizes escaláveis, permitindo assim a transferência perfeita de hiperparâmetros entre redes menores e maiores. No entanto, a ampla aplicabilidade do µP permanece limitada devido à árdua execução técnica, às múltiplas variações e aos fundamentos teóricos envolvidos que são difíceis de compreender completamente.

O estado atual da investigação sobre microperturbações (μP) ainda não forneceu provas empíricas substanciais que demonstrem a sua eficácia quando ampliadas. Isto levanta preocupações em relação à preservação de hiperparâmetros durante tal escalonamento e se ele pode ser perfeitamente integrado com métodos estabelecidos, como a redução de peso dissociada. Apesar de certos estudos adotarem μP, ainda existem perguntas sem resposta que necessitam de exploração adicional.

O microprocessador (µP) apresentado na série Tensor Programs foi capaz de transferir hiperparâmetros de disparo zero; no entanto, foram levantadas preocupações sobre a sua estabilidade e escalabilidade quando aplicado a transformadores de grande escala. Embora pesquisas recentes tenham investigado o uso de µP para ajuste de hiperparâmetros, faltam evidências empíricas que apoiem sua eficácia em modelos grandes. Alguns sugeriram a utilização de µ-Transfer como uma abordagem alternativa, enquanto outros defendem métodos alternativos, como leis de escala baseadas em recursos computacionais ou modificações arquitetônicas. Além disso, tanto o gradiente descendente automático quanto os hipergradientes fornecem opções mais complexas para otimização da taxa de aprendizagem, embora possam ser menos acessíveis devido ao seu custo em comparação com µP.

O presente estudo investiga a microperturbação (µP) aplicada a transformadores, com particular ênfase na dimensão da largura. Este método facilita a transferência de hiperparâmetros entre modelos menores e maiores, concentrando-se na largura dos transformadores. Por meio de regras de escalonamento propostas, o trabalho aborda questões relativas à variância de inicialização e às taxas de aprendizagem de Adam. Neste contexto, certas suposições são feitas em relação aos parâmetros do modelo, e as regras de escalonamento subsequentes são determinadas pela taxa básica de aprendizagem alfa. Além disso, é realizado um exame da influência dos ajustes na escala de atenção tau^-1, considerando tanto suas consequências no desempenho quanto a extensão do conhecimento transferido. Em última análise, a implementação do µP fornece uma estrutura estruturada para o ajuste dos parâmetros da rede neural.

/pt/images/the-future-of-neural-network-training-empirical-insights-into-cebc-transfer-for-hyperparameter-scaling.png

O experimento examina a influência de vetores de escala treináveis, chamados de “ganhos”, na transferibilidade das taxas de aprendizagem em redes neurais muito profundas ao empregar a norma Root Mean Square (RMSNorm). Os resultados revelam que a obtenção de uma transferência fiável de taxas de aprendizagem óptimas é dificultada por um factor de escala Θ(1) aplicado aos ganhos, o que afecta negativamente a qualidade global destes modelos. Além disso, a utilização de projeções de consulta inicializadas com zero leva a uma transferência melhorada e a pequenas reduções nas perdas. Empregar a escala de atenção convencional parece prejudicial ao desempenho. Quando são introduzidas não-linearidades multiplicativas, elas permitem a transferência bem sucedida de taxas de aprendizagem, apesar de potenciais perturbações causadas por outros factores. Por outro lado, o otimizador Lion mostra-se incapaz de transmitir taxas básicas de aprendizagem de forma eficaz

Em resumo, este estudo investigou a confiabilidade da µ-Transferência na transmissão de coeficientes de aprendizagem para transformadores. Em muitos casos, como ajustes na arquitetura e mudanças no tamanho do lote, o µP demonstrou eficácia. No entanto, ao empregar parâmetros de ganho modificáveis ​​ou magnitudes de atenção excepcionalmente expansivas, a µ-Transfer vacilou. A estratégia direta de µP produziu resultados superiores em comparação com as parametrizações tradicionais empregadas pelos transformadores. Além disso, digno de nota foi a capacidade do μ-Transfer de prever taxas de aprendizagem ideais em uma ampla gama de modelos. Essas descobertas têm implicações para pesquisas futuras no domínio da transferência de hiperparâmetros.

Confira o documento. Todo o crédito desta pesquisa vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir no Twitter. Junte-se ao nosso canal Telegram, canal Discord e grupo LinkedIn.

Convidamos cordialmente aqueles que apreciam os nossos esforços a subscreverem a nossa newsletter, pois é uma excelente plataforma para se manterem informados sobre os nossos últimos desenvolvimentos e ofertas que certamente irão encantar ainda mais os nossos valiosos clientes.

Não perca a oportunidade de fazer parte de nossa extensa comunidade de aprendizado de máquina no Reddit, que possui uma base de membros superior a 40.000 indivíduos.

Você está interessado em alcançar um vasto público de mais de 1,5 milhão de pessoas focadas em inteligência artificial? Nossa organização tem o prazer de oferecer nossos serviços para ajudar a facilitar esse objetivo. Sinta-se à vontade para colaborar conosco para alcançar o resultado desejado.

Assine nosso boletim informativo de pesquisa de IA em rápida expansão, que é lido com entusiasmo por profissionais conceituados de instituições de prestígio como Google, NVIDIA, Meta, Universidade de Stanford, Instituto de Tecnologia de Massachusetts, Microsoft e inúmeras outras organizações líderes na área.

*️⃣ Link da fonte:

Artigo ,