Contents

LLMs continuam avançando com Llama 3, o mais novo modelo de IA de peso aberto da Meta

Contents

/pt/images/llms-keep-leaping-with-llama-3-metas-newest-open-weights-ai-model.jpg

Ampliar imagens Getty | Benj Edwards

Na quinta-feira, a Meta revelou as primeiras versões de seu modelo de IA de peso aberto Llama 3 que pode ser usado para potencializar a composição de texto, geração de código ou chatbots. Ela também anunciou que seu Meta AI Assistant agora está disponível em um site e será integrado aos seus principais aplicativos de mídia social, intensificando os esforços da empresa para posicionar seus produtos em relação a outros assistentes de IA, como ChatGPT da OpenAI, Copilot da Microsoft e Gemini do Google.

Como seu antecessor, Llama 2, o Llama 3 é notável por ser um modelo de linguagem grande (LLM) de peso aberto e disponível gratuitamente, fornecido por uma grande empresa de IA. Llama 3 tecnicamente não é considerado “código aberto” porque esse termo tem um significado específico em software (como mencionamos em outra cobertura), e a indústria ainda não definiu a terminologia para lançamentos de modelos de IA que fornecem código ou pesos com restrições (você pode ler a licença do Llama 3 aqui) ou que seja enviado sem fornecer dados de treinamento. Normalmente chamamos esses lançamentos de “pesos abertos”.

No momento, o Llama 3 está disponível em dois tamanhos de parâmetro: 8 bilhões (8B) e 70 bilhões (70B), ambos disponíveis para download gratuito no site da Meta mediante inscrição. O Llama 3 vem em duas versões: pré-treinado (basicamente o modelo bruto de previsão do próximo token) e ajustado por instrução (ajustado para seguir as instruções do usuário). Cada um tem um limite de contexto de token de 8.192.

/pt/images/meta_ai_website_screenshot_april_18_2024.png

Uma representação cativante da página do Meta AI Assistant pode ser observada neste instantâneo capturado em 18 de abril de 2024.

Meta treinou ambos os modelos em dois clusters personalizados de 24.000 GPU. Em uma entrevista em podcast com Dwarkesh Patel, o CEO da Meta, Mark Zuckerberg, disse que a empresa treinou o modelo 70B com cerca de 15 trilhões de tokens de dados. Ao longo do processo, o modelo nunca atingiu a “saturação” (ou seja, nunca atingiu um obstáculo em termos de aumento de capacidade). Eventualmente, Meta desligou e passou a treinar outros modelos.

Em retrospectiva, tínhamos antecipado uma curva de melhoria mais acentuada, mas no final permaneceu uma inclinação. É possível que o aumento dos dados de entrada tenha produzido resultados melhores”, expressou Mark Zuckerberg durante sua aparição no podcast.

Meta também anunciou que está atualmente treinando uma versão de parâmetro 400B do Llama 3, que alguns especialistas como Jim Fan da Nvidia acham que pode funcionar na mesma liga que GPT-4 Turbo, Claude 3 Opus e Gemini Ultra em benchmarks como MMLU, GPQA, HumanEval e MATH.

Ao discutir benchmarks, foi observado anteriormente que a sua aplicação a grandes modelos de linguagem pode ser uma fonte de frustração significativa. Isto decorre de vários factores, como a inclusão de testes de referência no conjunto de dados de formação, a amostragem selectiva por parte dos fornecedores e a dificuldade em reflectir com precisão as capacidades mais amplas da inteligência artificial durante as interacções com sistemas baseados em chat.

Mas, como esperado, Meta forneceu alguns benchmarks para Llama 3 que listam resultados de MMLU (conhecimento de nível de graduação), GSM-8K (matemática do ensino fundamental), HumanEval (codificação), GPQA (questões de nível de pós-graduação) e MATH (matemática problemas de palavras). Isso mostra que o modelo 8B tem um bom desempenho em comparação com modelos de peso aberto, como Gemma 7B e Mistral 7B Instruct do Google, e o modelo 70B também se destacou contra Gemini Pro 1.5 e Claude 3 Sonnet.

/pt/images/llama3_benchmarks.png

Ampliar/Um gráfico de benchmarks Llama 3 8B e 70B ajustados por instrução fornecido pela Meta. meta

Meta diz que o modelo Llama 3 foi aprimorado com recursos para entender a codificação (como o Llama 2) e, pela primeira vez, foi treinado com imagens e texto – embora atualmente produza apenas texto. De acordo com a Reuters, o diretor de produtos da Meta, Chris Cox, observou em uma entrevista que habilidades de processamento mais complexas (como a execução de planos de várias etapas) são esperadas em atualizações futuras do Llama 3, que também suportará saídas multimodais – ou seja, texto e imagens.

A Meta pretende implantar os modelos Llama 3 em várias infraestruturas de nuvem, permitindo acessibilidade perfeita por meio de plataformas populares como Amazon Web Services (AWS), Databricks, Google Cloud, entre outras.

Também na quinta-feira, a Meta anunciou que o Llama 3 se tornará a nova base do assistente virtual Meta AI, que a empresa anunciou pela primeira vez em setembro. O assistente terá destaque nos recursos de busca do Facebook, Instagram, WhatsApp, Messenger e do já citado site dedicado que apresenta design semelhante ao ChatGPT, incluindo a possibilidade de gerar imagens na mesma interface. A empresa também anunciou uma parceria com o Google para integrar resultados de pesquisa em tempo real ao assistente Meta AI, somando-se a uma parceria existente com o Bing da Microsoft.

*️⃣ Link da fonte:

Imagens Getty | Benj Edwards , Lhama 3 , Meta AI Assistant , disponível em um site , significado específico , aqui, inscreva-se. , clusters customizados de 24.000 GPUs , Dwarkesh Patel , atuar na mesma liga , MMLU , GPQA , [HumanEval](https://paperswithcode.com/sota/geração de código-on-humaneval) , MATH , [MMLU](https://paperswithcode.com/sota/compreensão de linguagem multitarefa-em-mmlu) , GSM-8K , HumanEval , GPQA , MATH , Mistral 7B, Meta , Reuters , site dedicado,