Contents

Um estudo comparativo de capacidades de aprendizagem em contexto: explorando a versatilidade de grandes modelos de linguagem em tarefas de regressão

Contents

O surgimento de grandes modelos de linguagem (LLMs) no domínio da inteligência artificial gerou atenção considerável no que diz respeito às suas extensas habilidades linguísticas. Historicamente empregados para processos relativos ao processamento de linguagem natural, esses modelos estão atualmente sob investigação por sua capacidade de realizar cálculos envolvidos em análises de regressão. Esta transição é indicativa de um padrão abrangente que favorece plataformas de IA multifacetadas e adaptáveis, capazes de gerir diversas operações complexas.

Um dos principais obstáculos enfrentados pela pesquisa em inteligência artificial é a criação de modelos capazes de acomodar prontamente novas tarefas usando o mínimo de informações suplementares. A ênfase reside em capacitar esses sistemas para capitalizarem a sua pré-formação abrangente e aplicá-la de forma eficaz a problemas desconhecidos, sem necessitar de instrução específica para tarefas. Este problema assume particular importância em tarefas de regressão, que geralmente exigem um retreinamento considerável utilizando novos conjuntos de dados para um desempenho ideal.

Em ambientes convencionais, a análise de regressão é conduzida principalmente utilizando abordagens de aprendizagem supervisionada. Técnicas como Random Forest, Support Vector Machines e Gradient Boosting são comumente empregadas; no entanto, esses métodos exigem quantidades substanciais de dados de treinamento e frequentemente necessitam de ajustes intrincados de parâmetros para alcançar o desempenho ideal. Embora altamente eficazes, essas estratégias possuem versatilidade limitada para acomodar situações de dados novas ou dinâmicas sem exigir um extenso treinamento.

Pesquisadores da Universidade do Arizona e da Universidade Técnica de Cluj-Napoca desenvolveram uma metodologia inovadora que emprega modelos de linguagem pré-existentes como GPT-4 e Claude 3 para aprendizagem em contexto. Ao aproveitar a capacidade destes modelos para produzir previsões baseadas em exemplos dados no seu ambiente funcional, esta técnica elimina a necessidade de sessões de formação adicionais. O estudo indica que esses modelos são capazes de realizar tarefas de regressão linear e não linear por meio da análise de pares de entrada-saída integrados em seu feed de entrada.

A abordagem utilizada neste estudo é baseada na aprendizagem contextual, que envolve fornecer aos LLMs instâncias específicas de tarefas de regressão e permitir-lhes generalizar para situações novas. Para ilustrar, conduzimos uma avaliação de Claude 3 comparando-a com abordagens convencionais usando um conjunto de dados gerado sinteticamente que simula desafios de regressão intrincados. Nestes testes, Claude 3 demonstrou desempenho igual ou melhor que as estratégias de regressão existentes, sem sofrer modificações nos parâmetros ou receber treinamento adicional. Um exemplo desta superioridade envolveu a previsão de resultados a partir do conjunto de dados Friedman #2, que apresenta um cenário altamente não linear. Especificamente, Claude 3 exibiu um erro absoluto médio (MAE) menor em comparação com o Gradient Boosting ao realizar esta tarefa.

/pt/images/a-comparative-study-of-in-context-learning-capabilities-exploring-the-versatility-of-large-language-models-in-regression-tasks.png

Em uma variedade de modelos e conjuntos de dados, quando apenas uma das múltiplas variáveis ​​fornecia informações úteis (referido como “Claude 3”), juntamente com outros grandes modelos de linguagem, como GPT-4, esses modelos exibiram desempenho notável, superando tanto os supervisionados quanto os métodos não supervisionados baseados em heurística em termos de precisão. Especificamente, em situações que envolvem regressão linear esparsa, que muitas vezes apresenta dificuldades substanciais para abordagens convencionais devido à sua escassez de dados, os LLMs adaptaram-se eficazmente e apresentaram uma precisão notável, alcançando um erro médio absoluto (MAE) médio de apenas 0,14, enquanto a alternativa tradicional mais próxima registou um MAE de 0,12.

INSTANTÂNEO DE PESQUISA

Em resumo, este estudo enfatiza a notável flexibilidade e eficácia de modelos de linguagem avançados, como GPT-4 e Claude 3, na realização de tarefas de regressão por meio de aprendizagem contextual sem qualquer treinamento adicional. Estes modelos demonstraram uma capacidade excepcional de aplicar conhecimentos previamente adquiridos a novos desafios, exibindo um nível de precisão comparável ou mesmo superior às abordagens supervisionadas convencionais. Tais conquistas implicam que estes modelos de última geração podem ser empregados em uma ampla gama de aplicações, representando uma alternativa versátil e engenhosa às técnicas que requerem extensa reciclagem. Consequentemente, estes resultados sugerem uma mudança de paradigma no aproveitamento da inteligência artificial para tarefas baseadas em dados, expandindo consideravelmente a potencial aplicabilidade e escalabilidade de modelos de linguagem em diversos campos.

Confira o documento. Todo o crédito desta pesquisa vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir no Twitter. Junte-se ao nosso canal Telegram, canal Discord e grupo LinkedIn.

Convidamos cordialmente aqueles que apreciam os nossos esforços a subscreverem a nossa newsletter, pois é uma excelente oportunidade para se manterem informados sobre os nossos últimos empreendimentos e desenvolvimentos em tempo útil.

Não perca a oportunidade de fazer parte de nossa extensa comunidade de aprendizado de máquina no Reddit, que possui mais de 40.000 membros.

No esforço de atingir um vasto público de mais de 1,5 milhão de pessoas interessadas em inteligência artificial, convidamos você a colaborar com nossa equipe.

Assine nosso boletim informativo de pesquisa de IA em rápida expansão, que é lido pelos principais especialistas na área, incluindo aqueles de instituições conceituadas como Google, NVIDIA, Meta, Universidade de Stanford, Instituto de Tecnologia de Massachusetts (MIT), Microsoft e muito mais.

*️⃣ Link da fonte:

Artigo ,