Contents

Rastreio através de contentores e oclusores na natureza - Conheça o TCOW: Um modelo de IA que pode segmentar objectos em vídeos com uma noção de permanência do objeto

Contents

A utilização de projectos de código aberto resultou na criação de modelos linguísticos avançados, que, após treino, podem executar tarefas designadas com proficiência. Esses modelos são capazes de fornecer respostas satisfatórias a perguntas e comandos emitidos pelos utilizadores. Alguns exemplos notáveis de tais projectos incluem o Alpaca e o Vicuna, que se baseiam na tecnologia LLaMA, bem como o OpenAssistant e o Dolly, que se baseiam na tecnologia Pythia.

Continua a ser um desafio para a comunidade avaliar efetivamente o calibre dos modelos linguísticos recentemente introduzidos, apesar dos lançamentos frequentes. A ambiguidade inerente ao domínio dos modelos linguísticos exige avaliações manuais através de comparações humanas, que são necessárias para determinar a excelência das suas respostas. Consequentemente, seria vantajoso o desenvolvimento de um quadro de avaliação comparativa inclusivo, progressivo e distinto, baseado em comparações entre pares.

Os modelos linguísticos existentes enfrentam desafios para satisfazer todos os critérios acima mencionados. Embora as ferramentas de avaliação comparativa populares, como o HELM e o lm-evaluation-harness, ofereçam diversas métricas de avaliação para fins de investigação avançada, a sua deficiência reside na incapacidade de avaliar eficazmente as consultas abertas, uma vez que não dispõem de capacidades de comparação entre pares.

LMSYS ORG é um grupo que cria modelos e quadros expansivos e adaptáveis, conhecidos como LMSYS. Recentemente, introduziram a Chatbot Arena, uma plataforma para avaliar o desempenho de grandes modelos de linguagem através de crowdsourcing e competição aleatória. Esta plataforma utiliza o sistema de classificação Elo, que tem sido utilizado em contextos semelhantes, como o xadrez e outros cenários de jogos, para avaliar as capacidades destes modelos de linguagem. A implementação deste sistema parece promissora para alcançar os resultados desejados de acessibilidade, escalabilidade e abertura.

Para iniciar a aquisição de conhecimentos, a equipa começou os seus esforços uma semana antes da abertura da arena, utilizando vários modelos de aprendizagem de línguas (LLM) de código aberto de renome. Estão disponíveis demonstrações de aplicações práticas de LLMs através da implementação de técnicas de crowdsourcing para a recolha de dados. Neste caso, os utilizadores têm a capacidade de avaliar e comparar o desempenho de vários modelos anónimos em simultâneo, enquanto conversam com eles na arena.

A plataforma https://arena.lmsys.org , conhecida como FastChat, implementou um sistema de serviço multimodal que permite aos utilizadores participar em conversas com vários modelos anónimos. Ao entrar na arena, os indivíduos são envolvidos num diálogo com dois modelos indefinidos. Depois de receberem comentários de ambas as partes, os utilizadores podem optar por continuar a discussão ou eleger um modelo preferido.Após a votação, a identidade dos modelos será revelada. Os participantes podem então conversar com os modelos previamente identificados ou iniciar um novo intercâmbio com dois modelos adicionais. Todas as interacções dos utilizadores são registadas pelo sistema. Os resultados da votação só são disponibilizados depois de o anonimato dos modelos ter sido mantido nos dados analíticos. Desde o seu lançamento, na semana passada, cerca de 7.000 utilizadores legítimos e

Prevê-se que, no futuro, sejam implementados algoritmos de amostragem, procedimentos de torneio e sistemas de serviço melhorados para atender a uma gama mais vasta de modelos e fornecer classificações mais refinadas para diversas tarefas.

Consulte o documento

, o código

e o projeto

. Não se esqueça de se juntar ao nosso 20k+ ML SubReddit, Discord Channel e Email Newsletter, onde partilhamos as últimas notícias sobre investigação em IA, projectos de IA interessantes e muito mais. Se tiver alguma questão relacionada com o artigo acima ou se lhe tivermos escapado alguma coisa, não hesite em enviar-nos um e-mail para Asif@All Things IT @AI

Explore uma coleção abrangente de ferramentas de inteligência artificial que englobam vários domínios no domínio das tecnologias da informação em ‘All Things IT’.

Os últimos avanços no StoryBird.ai resultaram na adição de funcionalidades notáveis, permitindo aos utilizadores criar uma narrativa ilustrada através de um determinado prompt. Se estiver interessado, por favor visite o link especificado para uma exploração mais aprofundada. Este conteúdo é patrocinado.