Transformando o alinhamento do modelo de linguagem: transferência interlíngue zero-shot usando modelos de recompensa para aprimorar a comunicação multilíngue
O alinhamento do modelo linguístico desempenha um papel essencial no reforço da centragem no utilizador e da eficácia das tecnologias linguísticas, garantindo a consistência com as preferências humanas. No entanto, alcançar este objectivo exige muitas vezes o acesso a grandes quantidades de dados específicos de línguas, o que pode ser um desafio, especialmente quando se trata de línguas sub-representadas ou minoritárias. Consequentemente, a disponibilidade limitada de tais dados dificulta o desenvolvimento de modelos multilingues eficientes e justos que atendam a diversas comunidades linguísticas.
Pesquisadores do MIT, Google Research e Google DeepMind introduziram uma nova estratégia para alinhar modelos de linguagem em diferentes idiomas sem a necessidade de dados específicos para cada idioma. Essa abordagem, denominada alinhamento interlingual zero-shot, utiliza um modelo de recompensa que foi treinado preliminarmente em um único idioma, como o inglês, e depois aplicado a idiomas adicionais. Ao fazer isso, este método evita o pré-requisito convencional para grandes quantidades de dados de treinamento específicos de idiomas.
geração de resumo de texto e criação de diálogo aberto. Ao empregar duas táticas de otimização-aprendizagem por reforço e reordenação best-of-n-em vários contextos linguísticos, como alemão, inglês, espanhol, russo, turco e vietnamita, eles ilustraram que, quando implantado em um idioma alvo alternativo, o esquema de prêmios preservou sua utilidade, frequentemente superando os modelos convencionais adaptados para fontes de dados nativas.
Os resultados obtidos com o emprego desta abordagem demonstraram uma eficácia notável. Na verdade, durante as avaliações realizadas por avaliadores humanos, o alinhamento multilíngue foi escolhido como a opção preferida em mais de 70% dos casos relacionados à geração de resumos de texto. Tal resultado significa uma clara inclinação para os resultados produzidos pelos modelos alinhados e destaca a sua aplicabilidade no mundo real.
O estudo revelou resultados inesperados relativos à eficácia do emprego de modelos de recompensa em vários idiomas. Em certos casos, a utilização de um modelo de recompensa de um idioma de origem diferente superou o de um idioma de destino semelhante. A título de ilustração, a implementação de um modelo de recompensa baseado em inglês para sincronizar um modelo de língua alemã gerou resultados mais coerentes em comparação com um modelo de origem alemã.
O modelo aumentado produziu resultados uniformemente positivos em uma série de condições, exceto por um caso excepcional em que o desempenho foi ligeiramente inferior. Em quase todos os casos avaliados, as recompensas interlinguísticas melhoradas levaram a ganhos apreciáveis tanto na precisão do alinhamento como na consistência face às expectativas humanas. Além disso, no que diz respeito aos exercícios de geração de diálogo, estes quadros harmonizados exibiram um aumento estatisticamente significativo variando de 15% a 25%, em comparação com os seus homólogos não ajustados, no que diz respeito à congruência de alinhamento que se alinha com os desejos do utilizador.
Em resumo, a investigação sobre o alinhamento interlingual zero-shot aborda o obstáculo colocado pela escassez de dados extensos e específicos do idioma. A abordagem envolve a utilização de um modelo de recompensa treinado numa única língua e a extensão da sua aplicação a outras línguas, reduzindo assim significativamente a necessidade de dados multilingues rotulados por humanos. Os resultados demonstram uma inclinação evidente para modelos alinhados interlinguisticamente, com casos em que o seu desempenho excede o de modelos ajustados usando dados no mesmo idioma.
Confira o documento. Todo o crédito desta pesquisa vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir no Twitter. Junte-se ao nosso canal Telegram, canal Discord e grupo LinkedIn.
Convidamos cordialmente aqueles que apreciam os nossos serviços a subscreverem a nossa newsletter, pois oferece uma visão exclusiva das últimas atualizações e desenvolvimentos da nossa organização que certamente despertarão ainda mais o seu interesse.
Não perca a oportunidade de fazer parte de nossa extensa comunidade de aprendizado de máquina no Reddit, que possui mais de 40.000 membros.
Para parceria de conteúdo, preencha este formulário aqui.
Assine nosso boletim informativo de pesquisa de IA em rápida expansão, que é lido por especialistas conceituados de instituições de prestígio como Google, NVIDIA, Meta, Universidade de Stanford, Instituto de Tecnologia de Massachusetts (MIT), Microsoft e inúmeras outras organizações líderes na área.
*️⃣ Link da fonte: