Contents

MosaicML lança MPT-7B-8K, um LLM de código aberto com 7B parâmetros e 8k de comprimento de contexto

Contents

/pt/images/mosaicml-launches-mpt-7b-8k-a-7b-parameter-open-source-llm-with-8k-context-length.jpg

O MosaicML revelou MPT-7B-8K , um modelo de língua grande (LLM) de código aberto com 7 mil milhões de parâmetros e um comprimento de contexto de 8k.

A organização afirma que o modelo foi educado na fase MosaicML e iniciou a sua preparação através do ponto de referência MPT-7B. Esta fase preliminar foi realizada utilizando Nvidia H100s, seguida de três dias adicionais de treino em 256 H100s, durante os quais foi integrada uma quantidade surpreendente de 500 mil milhões de tokens de dados.

Anteriormente, o MosaicML tinha feito ondas na comunidade de IA com o lançamento do MPT-30B , um LLM baseado num descodificador de código aberto e licenciado comercialmente. A empresa afirmava que era mais poderoso do que o GPT-3-175B, com apenas 17% dos parâmetros do GPT-3, o equivalente a 30 mil milhões.

O MPT-30B demonstrou superioridade em relação ao GPT-3 em várias tarefas e foi considerado mais eficiente do ponto de vista computacional em comparação com outros modelos da sua dimensão. Por exemplo, foram necessários cerca de 1,44 vezes mais recursos computacionais (FLOPs) para que o LLaMA-30B igualasse o desempenho do MPT-30B, enquanto o Falcon-40B necessitou de 1,27 vezes mais FLOPs do que o MPT-30B para obter resultados comparáveis.

O MosaicML declarou que o seu modelo mais recente, o MPT-7B-8K, demonstra uma excelência sem paralelo nas tarefas de resumo de documentos e de resposta a perguntas, quando comparado com qualquer um dos seus modelos anteriores.

A organização afirmou que este modelo específico foi concebido para aumentar a velocidade da formação e da inferência através da utilização das suas capacidades avançadas. Além disso, permite aos utilizadores aperfeiçoar os seus dados específicos de domínio no âmbito do MosaicML, proporcionando-lhes um grau de controlo ainda maior sobre o processo de aprendizagem.

A organização disponibilizou licenças para utilização comercial do MPT-7B-8k, que demonstra a sua notável proficiência com base numa vasta coleção de 1,5 triliões de tokens, superando outros modelos como o XGen, LLaMA, Pythia, OpenLLaMa e StableLM.

O MosaicML afirma que, através da utilização do FlashAttention e do FasterTransformer, o modelo destaca-se pela rapidez de formação e inferência, beneficiando do código de formação de fonte aberta disponível no repositório llm-foundry .

A organização apresentou o produto em três iterações distintas,

Os três modelos são variantes do transformador MPT-7B pré-treinado com diferentes objectivos e métodos de otimização.O primeiro, MPT-7B-8k-Base, foi treinado com base no MPT-7B e depois alargado para lidar com sequências mais longas até 8 kilobytes de comprimento através de treino adicional com um grande corpus de 500 mil milhões de tokens, resultando numa vasta coleção de 1,5 triliões de tokens que inclui texto e código. Este modelo é adequado para várias tarefas de PNL. O segundo modelo, MPT-7B-8k-Instruct, foi concebido para tarefas baseadas em instruções, como a sumarização e a resposta a perguntas, refinando o MPT-7B-8k através de conjuntos de dados meticulosamente seleccionados. Por último, o terceiro

Mosaic afirma que os modelos MPT-7B-8k apresentam um desempenho comparável ou superior a outros modelos de código aberto atualmente disponíveis com um comprimento de contexto de 8k, tal como confirmado pelo dispositivo de avaliação de aprendizagem em contexto da empresa .

A divulgação corresponde à revelação pela Meta do seu modelo LLama 2, que está atualmente acessível através do Microsoft Azure. Distinguindo-se do LLama 1, o LLama 2 apresenta uma gama de tamanhos de modelo que abrange 7, 13 e 70 mil milhões de parâmetros.

A Meta indicou que os modelos pré-treinados utilizados nesta investigação foram treinados utilizando um conjunto de dados substancial que era aproximadamente 40% maior em tamanho em comparação com o conjunto de dados utilizado para o LLaMA 1. Além disso, o comprimento do contexto para estes modelos foi duplicado para atingir uns impressionantes dois biliões de tokens, ultrapassando significativamente o âmbito do conjunto de dados do LLaMA 1. De acordo com as avaliações do Meta, o desempenho do LLaMA 2 excede o do seu modelo anterior.