Contents

Modelos de avaliação geral de domínio autônomo melhoram o desempenho do agente digital: um avanço nas tecnologias adaptativas de IA

Contents

Os agentes digitais, que são entidades baseadas em software destinadas a agilizar e informatizar a interação humana com sistemas digitais, tornaram-se cada vez mais populares devido à sua capacidade de diminuir o esforço necessário para operações digitais comuns. Esses agentes possuem a capacidade de atravessar interfaces da web de forma independente ou regular as configurações do dispositivo, alterando assim a maneira como os indivíduos interagem com a tecnologia. Existe uma oportunidade significativa de progresso no aumento da fiabilidade e produtividade de tais agentes numa vasta gama de tarefas e circunstâncias.

Apesar de suas capacidades substanciais, os agentes digitais muitas vezes encontram dificuldades na compreensão das diretivas do usuário ou no ajuste a configurações complexas ou em evolução, resultando em desempenho abaixo do ideal e erros. Um obstáculo significativo reside na criação de agentes capazes de compreender e executar tarefas de forma consistente e perfeita, independentemente de solicitações ou interfaces sem precedentes.

As técnicas existentes para avaliar agentes digitais geralmente empregam parâmetros de referência fixos que avaliam até que ponto os seus comportamentos estão em conformidade com padrões predeterminados derivados de situações concebidas pelo homem. No entanto, tais métodos convencionais podem não reflectir adequadamente a versatilidade e fluidez frequentemente observadas nas interacções reais dos utilizadores, uma vez que os comandos emitidos pelos utilizadores são susceptíveis de apresentar uma variabilidade considerável. Consequentemente, é necessária a adoção de metodologias de avaliação mais flexíveis e responsivas.

Um grupo de pesquisadores da UC Berkeley e da Universidade de Michigan introduziu um método inovador que emprega modelos de avaliação de domínio geral para autoavaliação e melhoria do desempenho dos agentes digitais por meio de técnicas avançadas de aprendizado de máquina. Esta nova abordagem elimina a necessidade de supervisão manual, uma vez que utiliza modelos visuais e linguísticos para avaliar o comportamento dos agentes em relação a diversas tarefas, proporcionando assim uma compreensão mais abrangente das suas competências.

um modelo abrangente e um sistema de avaliação compartimentado em duas fases. O modelo unificado avalia as ações do agente com base na orientação do usuário e nos dados de captura de tela, utilizando modelos robustos de linguagem de visão pré-existentes. Por outro lado, a técnica segmentada transforma inicialmente o material visual em texto e depois aplica modelos de linguagem para comparar as representações textuais com as orientações do usuário. Este design aumenta a clareza e pode ser executado com requisitos computacionais reduzidos, tornando-o ideal para cenários de aplicação ao vivo.

/pt/images/autonomous-domain-general-evaluation-models-enhance-digital-agent-performance-a-breakthrough-in-adaptive-ai-technologies.png

A eficácia destes novos quadros de avaliação foi validada através de um exame exaustivo. Na verdade, melhoraram o desempenho dos actuais assistentes digitais em até 29%, com base em benchmarks amplamente aceites, como o WebArena. Além disso, quando aplicados a domínios desconhecidos sem preparação preliminar, estes modelos demonstraram um impressionante aumento de 75% na precisão, destacando a sua versatilidade e resiliência.

Instantâneo de pesquisa

Em resumo, esta investigação procura abordar a questão de longa data da hesitação dos agentes digitais quando confrontados com ambientes complexos ou estranhos. Ao introduzir mecanismos autónomos de avaliação de domínio geral, foram feitos progressos substanciais no reforço da proficiência dos agentes digitais. Esses modelos abrangentes e interconectados têm a capacidade de melhorar a conduta dos agentes, resultando em uma melhoria impressionante de até 29% nos benchmarks estabelecidos, bem como em um aumento notável de 75% em projetos de transição de domínio. Esta conquista notável destaca a capacidade das versáteis inovações de IA para transformar a confiabilidade e a produtividade dos agentes digitais, significando um passo crucial na expansão da sua gama de aplicações em diversos meios digitais.

Confira o Paper e o Github. Todo o crédito desta pesquisa vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir no Twitter. Junte-se ao nosso canal Telegram, canal Discord e grupo LinkedIn.

Convidamos cordialmente aqueles que apreciam nossos esforços a assinarem nossa newsletter, pois é um excelente meio de se manterem informados sobre nossos últimos empreendimentos e atualizações que acreditamos irão cativar ainda mais seu interesse em nosso trabalho.

Não perca a oportunidade de fazer parte de nossa extensa comunidade de aprendizado de máquina no Reddit, que possui mais de 40.000 membros.

Considerar a colaboração com nossa estimada organização pode lhe proporcionar a oportunidade de alcançar um vasto público de aproximadamente 1,5 milhão de indivíduos interessados ​​em inteligência artificial. Teremos o maior prazer em discutir possíveis oportunidades de parceria com você.

Assine nosso boletim informativo em rápida expansão, lido por pesquisadores líderes de instituições conceituadas como Google, NVIDIA, Meta, Stanford, MIT, Microsoft e muito mais.

*️⃣ Link da fonte:

Artigo , Github ,