Contents

Este artigo sobre IA da SambaNova apresenta um método de aprendizado de máquina para adaptar LLMs pré-treinados a novos idiomas

Contents

muitos destes modelos são treinados principalmente num número restrito de línguas comummente faladas, negligenciando assim a vasta extensão da diversidade linguística que permanece desconhecida. Tal descuido não só prejudica a disponibilidade generalizada de tecnologia linguística avançada, mas também agrava a disparidade tecnológica entre populações linguisticamente diversas.

Neste esforço de pesquisa, apresentamos uma técnica inovadora de inteligência artificial conhecida como SambaLingo, que busca aproveitar as capacidades de modelos linguísticos excepcionais e estabelecidos e personalizá-los para línguas menos faladas. Ao capitalizar a base robusta fornecida por modelos pré-existentes, o nosso método esforça-se por adaptar estes modelos às características linguísticas distintas da língua-alvo, melhorando assim o seu desempenho dentro do contexto específico.

Anteriormente, tem havido uma ênfase no desenvolvimento de modelos monolíticos multilingues ou específicos de uma língua desde o início, a fim de resolver este problema. No entanto, tais métodos enfrentam vários desafios, incluindo o fardo do multilinguismo, a disponibilidade limitada de dados e requisitos computacionais consideráveis. Nos últimos tempos, a tradução de modelos baseados em inglês para utilização com outras línguas tem-se mostrado promissora como uma abordagem alternativa, ilustrando a sua capacidade de superar modelos específicos de línguas que são treinados a partir do zero.

A investigação começou por identificar um modelo linguístico exemplar com excelente proficiência no seu domínio nativo, nomeadamente o sistema de código aberto Llama2 7B, distinguido pela sua experiência na língua inglesa.

A fim de abranger adequadamente os meandros da linguística da língua-alvo, os investigadores aumentaram o léxico do modelo incorporando tokens não sobrepostos derivados da língua-alvo e preenchendo-os com embeddings de subpalavras extraídos do tokenizador primário. Este procedimento vital garante a capacidade do modelo de segmentar e representar corretamente a nova linguagem, facilitando assim uma transição suave para a sua integração.

Os investigadores utilizaram uma metodologia de pré-treinamento contínuo, fornecendo ao modelo uma mistura meticulosamente selecionada de dados da Internet em inglês e no idioma alvo obtidos da CulturaX. Este mix de dados foi constituído na proporção de 1:3, favorecendo o idioma alvo, a fim de alcançar um equilíbrio intrincado entre manter a expertise atual do modelo e ao mesmo tempo aclimatá-lo ao novo ambiente linguístico.

Para otimizar a compatibilidade do modelo com as preferências humanas, adotamos uma abordagem em duas etapas que consiste em ajuste fino supervisionado seguido de otimização direta de preferências. Na primeira etapa, empregamos o conjunto de dados ultrachat-200k junto com sua contraparte de tradução gerada por máquina para fins de ajuste fino. Posteriormente, na segunda fase, conduzimos a otimização de preferência direta usando os conjuntos de dados ultra feedback e cai-conversation-harmless, em que estes foram combinados em uma proporção de dez partes de dados em inglês para uma parte de dados traduzidos automaticamente.

/pt/images/this-ai-paper-from-sambanova-presents-a-machine-learning-method-to-adapt-pretrained-llms-to-new-languages.png

Os investigadores conduziram uma avaliação abrangente dos modelos SambaLingo em múltiplas tarefas e idiomas, abrangendo modelagem de linguagem, tradução, classificação de texto, resposta a perguntas de livro aberto e livro fechado, e vários benchmarks proeminentes de compreensão de linguagem natural, conforme apresentado na Tabela 1. O os modelos foram submetidos a testes em nove línguas linguísticamente diversas, nomeadamente árabe, tailandês, turco

Os modelos SambaLingo demonstraram desempenho superior em comparação com modelos atuais de última geração em vários idiomas, conforme evidenciado por resultados consistentes em vários benchmarks. Especificamente, na métrica de perplexidade que mede a proficiência em modelagem de linguagem, nossos modelos produziram pontuações mais baixas do que todas as linhas de base anteriores em um subconjunto de dados retido para fins de avaliação (conforme ilustrado na Figura 1). Além disso, quando ampliados para a extensa estrutura Llama2 com 70 bilhões de parâmetros, os modelos SambaLingo apresentaram melhoria adicional no desempenho, excedendo seus equivalentes de 7 bilhões de parâmetros em diversas avaliações, apesar de terem sido treinados usando menor número de tokens.

Para garantir a excelência do resultado do nosso modelo e sua congruência com as expectativas humanas, utilizamos o GPT-4 como árbitro neutro, examinando as respostas do modelo às dúvidas genuínas dos usuários. As descobertas demonstraram que o SambaLingo superou todos os modelos concorrentes no mesmo domínio linguístico, conforme determinado pelos critérios de avaliação do GPT-4 e justificativas coerentes.

A introdução da metodologia SambaLingo significa um passo importante para colmatar a lacuna entre a inteligência artificial e a diversidade linguística, aproveitando as capacidades dos modelos de primeira linha e adaptando-os a línguas menos exploradas. Esta técnica inovadora apresenta uma solução prática e expansiva para superar obstáculos linguísticos, mantendo níveis ideais de desempenho e aderência às preferências do usuário. Como tal, estabelece as bases para uma sociedade mais equitativa, onde as vantagens da IA ​​são acessíveis a pessoas de diversas origens linguísticas, promovendo a inclusão e o acesso universal.

Confira o documento. Todo o crédito desta pesquisa vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir no Twitter. Junte-se ao nosso canal Telegram, canal Discord e grupo LinkedIn.

Convidamos cordialmente aqueles que apreciam os nossos esforços a subscreverem a nossa newsletter, pois é uma excelente oportunidade para se manterem informados sobre os nossos últimos empreendimentos e atualizações que, sem dúvida, achariam atraentes.

Não perca a oportunidade de fazer parte de nossa extensa comunidade de aprendizado de máquina no Reddit, que possui mais de 40.000 membros.

Nossa plataforma possui um público substancial de mais de 1,5 milhão de indivíduos interessados ​​em inteligência artificial, proporcionando uma excelente oportunidade para sua marca alcançar esse grupo demográfico altamente engajado e relevante. Vamos colaborar para capitalizar esta oportunidade única.

Assine nosso boletim informativo em rápida expansão, lido por pesquisadores conceituados de instituições líderes como Google, NVIDIA, Meta, Stanford, MIT, Microsoft e muito mais.

*️⃣ Link da fonte:

Artigo ,