Contents

Microsoft Research apresenta ‘MEGAVERSE’ para avaliação comparativa de grandes modelos de linguagem entre idiomas, modalidades, modelos e tarefas

Contents

Grandes Modelos de Linguagem (LLMs) demonstraram superioridade sobre as gerações anteriores de modelos de linguagem em várias tarefas e benchmarks. Em certos casos, estes modelos chegaram a aproximar-se ou exceder o desempenho do nível humano. No entanto, pode ser um desafio discernir se tais conquistas são atribuíveis a avanços na arquitetura do modelo ou a outros fatores, como distorções nos dados de teste ou conjuntos de dados insuficientes para uma avaliação precisa. Consequentemente, tem havido um foco crescente na investigação das capacidades dos LLMs para garantir medições confiáveis ​​da sua competência.

A maioria das investigações conduzidas para avaliar Grandes Modelos de Linguagem (LLMs), seja por meio de avaliação humana, testes qualitativos para habilidades específicas ou benchmarking, centraram-se predominantemente na língua inglesa. Essa pesquisa revelou uma discrepância notável entre a proficiência dos LLMs em inglês em comparação com outras línguas. No entanto, avaliar o desempenho do LLM em línguas além do inglês apresenta vários obstáculos formidáveis, como a escassez de referências bilíngues ou multilíngues para o pensamento lógico, o discurso e os intercâmbios interativos que abrangem diversos grupos linguísticos.

Os resultados derivados de pesquisas anteriores relativas ao MEGA oferecem uma riqueza de informações sobre as proficiências linguísticas de grandes modelos linguísticos, como os LLMs. Quando comparado com modelos de linguagem especializados de ponta, como o TULRv6, o GPT-4 demonstrou um nível impressionante de competência. No entanto, é essencial reconhecer que os modelos GPT tendem a apresentar resultados abaixo do ideal, especialmente quando adaptados a línguas com poucos recursos ou sistemas linguísticos que empregam escrita não latina, como certas línguas africanas e asiáticas.

A equipa de investigação da Microsoft Corporation alargou a sua análise para abranger um total de 22 conjuntos de dados diferentes e 83 línguas distintas, o que inclui numerosas línguas africanas com poucos recursos, através da utilização do benchmark MEGA, bem como da adição de seis conjuntos de dados adicionais.

Este estudo oferece observações dignas de nota para profissionais de desenvolvimento e pesquisa. Especificamente, nossas descobertas indicam que modelos comerciais maiores, como GPT-4 e Gemini-pro, apresentam desempenho superior em comparação com seus equivalentes menores, nomeadamente Gemma, Llama e Mistral, quando aplicados a linguagens de poucos recursos. Além disso, esta tendência é observada de forma consistente numa parte substancial dos conjuntos de dados examinados, o que implica que modelos mais diminutos enfrentam desafios na entrega de proficiência multilingue adequada. Consequentemente, pareceria prudente explorar métodos adicionais, incluindo aqueles baseados no ajuste fino, em modelos centrados na família linguística e em designs específicos de cada língua, a fim de melhorar o desempenho multilingue global.

Em relação aos conjuntos de dados multimodais, nosso modelo superou tanto o LLaVA quanto o Gemini-Pro-Vision em termos de desempenho em tarefas multimodais. Isto pode ser atribuído à eficácia da arquitetura do nosso modelo de linguagem, que depende fortemente da qualidade do seu processo de tokenização. Na verdade, conduzimos uma análise minuciosa da fertilidade de vários tokenizers usados ​​neste estudo, revelando que aqueles projetados para línguas de escrita latina, como inglês e espanhol, tendem a exibir níveis mais baixos de fertilidade em comparação com tokenizers desenvolvidos para sistemas linguísticos mais complexos, como Telugu, malaio e malaiala.

Devido às limitações inerentes aos recursos computacionais e às restrições de tempo, nosso estudo limitou-se a analisar um subconjunto de 7 bilhões de possíveis variações de modelos em vários conjuntos de dados. Infelizmente, não foi possível investigar todos os conjuntos de dados disponíveis devido a essas restrições. Além disso, a questão da contaminação de conjuntos de dados coloca desafios significativos na realização de estudos de benchmarking utilizando conjuntos de dados em idiomas diferentes do inglês. Nossas descobertas indicam que a esmagadora maioria dos modelos comerciais e de código aberto dependem fortemente da utilização de conjuntos de dados MEGAVERSE para fins de treinamento. No entanto, a incorporação de conjuntos de dados de avaliação multilingues recentemente estabelecidos no regime de formação de grandes modelos linguísticos apresenta obstáculos formidáveis ​​decorrentes de considerações económicas e de escassez de recursos. À luz destes desafios, o nosso objectivo é melhorar a nossa capacidade de reconhecer e mitigar

Confira o documento. Todo o crédito desta pesquisa vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir no Twitter. Junte-se ao nosso canal Telegram, canal Discord e grupo LinkedIn.

Convidamos cordialmente aqueles que apreciam os nossos esforços a subscrever a nossa newsletter, pois é um excelente recurso para se manterem informados sobre os nossos últimos empreendimentos e ofertas.

Não perca a oportunidade de fazer parte de nossa extensa comunidade de aprendizado de máquina no Reddit, que possui mais de 40.000 membros.

Quer atingir um vasto público de 1,5 milhão de pessoas interessadas em inteligência artificial? Nossa organização tem o prazer de oferecer nossos serviços para ajudá-lo a atingir esse objetivo.

Assine nosso boletim informativo de pesquisa de IA em rápida expansão, que é lido pelos principais especialistas na área de instituições conceituadas como Google, NVIDIA, Meta, Universidade de Stanford, Instituto de Tecnologia de Massachusetts (MIT), Microsoft e inúmeras outras organizações de prestígio.

*️⃣ Link da fonte:

Artigo ,