Stability AI revela modelo de linguagem 1.6B menor e mais eficiente como parte da inovação contínua

A magnitude dos grandes modelos de linguagem (LLMs) desempenha um papel essencial na determinação da sua viabilidade para implantação, pois influencia os recursos computacionais necessários e o local onde podem ser executados de forma eficaz.
Stability AI, o fornecedor que talvez seja mais conhecido por sua tecnologia de IA generativa de difusão estável de texto para imagem, lançou hoje um de seus menores modelos, com a estreia do Stable LM 2 1.6B. Stable LM é um LLM de geração de conteúdo de texto que Stability AI lançou pela primeira vez em abril de 2023 com modelos de parâmetros de 3 bilhões e 7 bilhões. O novo modelo StableLM é na verdade o segundo modelo lançado em 2024 pela Stability AI, após o Stable Code 3B da empresa lançado no início desta semana.
O inovador modelo Stable LM foi projetado com o objetivo de reduzir obstáculos e incentivar uma gama mais ampla de desenvolvedores a se envolverem no domínio da inteligência artificial generativa que abrange dados multilíngues em sete idiomas-incluindo inglês, espanhol, alemão, italiano, francês, Português e Holandês. Este modelo aproveita avanços recentes em algoritmos de modelagem de linguagem para alcançar um equilíbrio harmonioso entre eficiência e desempenho, que a Stability AI acredita ter alcançado.
De modo geral, modelos maiores que foram treinados usando dados e metodologia semelhantes tendem a produzir resultados superiores em comparação com seus equivalentes menores", explicou-nos Carlos Riquelme, chefe da equipe de linguagem da Stability AI. “No entanto, não é incomum que modelos mais novos e menores, equipados com algoritmos avançados e treinados em dados mais abundantes e de alta qualidade para superar modelos maiores anteriormente dominantes.
Por que menor é melhor (desta vez) com Stable LM
De acordo com a Stability AI, o modelo supera outros modelos de linguagem pequena com menos de 2 bilhões de parâmetros na maioria dos benchmarks, incluindo Phi-2 (2,7B) da Microsoft, TinyLlama 1.1B e Falcon 1B.
O diminuto Stable LM alcançou um nível de desempenho que excede certos modelos maiores, entre eles a iteração anterior do Stable LM 3B do Stability AI.
Vale ressaltar que o Stable LM 2 1.6B apresenta desempenho superior em comparação com alguns modelos mais extensos que foram treinados no passado recente”, afirmou Riquelme. “Esse fenômeno de aprimoramento contínuo em tamanho, espessura e qualidade também pode ser observado em dispositivos eletrônicos como computadores, televisores e microprocessadores.
As limitações associadas ao compacto Stable LM 2 1.6B devem ser reconhecidas. Embora apresente certas vantagens, tais como portabilidade e acessibilidade, a sua capacidade reduzida é uma desvantagem notável. Os desenvolvedores deste produto inovador enfatizam que os usuários devem antecipar possíveis dificuldades decorrentes de sua escala diminuta, incluindo uma maior probabilidade de geração de conteúdo alucinatório e uso de linguagem potencialmente prejudicial.
Transparência e mais dados são fundamentais para o lançamento do novo modelo
A Stability AI tem se concentrado no desenvolvimento de alternativas de LLM menores, mas altamente potentes, nos últimos meses.
Em dezembro de 2023, foi lançada a última iteração do modelo StableLM Zephyr, apresentando desempenho aprimorado e mantendo uma pegada reduzida em comparação com seu lançamento inicial em abril.
Riquelme divulgou que a última iteração dos modelos Stable LM 2 foi refinada com uma gama mais ampla de informações, abrangendo textos multilíngues em seis idiomas adicionais além do inglês, nomeadamente espanhol, alemão, italiano, francês, português e holandês. Além disso, ele acentuou a importância da sequência em que os dados são apresentados ao modelo durante o seu processo de treinamento. Parece que atribuir ênfase a diversas formas de dados em diferentes fases do ensino poderia produzir resultados favoráveis.
Buscando um avanço ainda maior, a Stability AI introduziu esses modelos de ponta com duas abordagens de treinamento distintas: configurações pré-treinadas e ajustadas, juntamente com um formato de arquivo exclusivo conhecido como “resfriamento de pré-treinamento”. Este último refere-se ao ponto de verificação final do modelo que precede quaisquer sessões subsequentes de ajuste fino.
Actualmente, o nosso objectivo principal reside em fornecer uma gama alargada de recursos e activos que capacitem os promotores independentes a criar, alterar e construir a partir da nossa estrutura existente”, expressou Riquelme. “Neste caso, oferecemos um protótipo detalhado projetado para servir de base para experimentação.
Durante o processo de treinamento de um modelo, ele é atualizado gradativamente em sequência, levando a um aumento em seu desempenho. Inicialmente, o modelo ignora qualquer informação, mas ao final do treinamento ele deveria ter absorvido e, idealmente, aprendido todos os aspectos relevantes dos dados. Contudo, Riquelme observou que à medida que a formação avança, os modelos podem tornar-se cada vez mais resistentes à mudança à medida que se aproximam da conclusão, obrigando-os a acelerar o ritmo de aprendizagem.
Decidiu-se apresentar o modelo no seu estado atual antes de iniciar a fase final de formação, com o intuito de facilitar a sua adaptação às diversas tarefas ou conjuntos de dados que os utilizadores possam desejar utilizar. Embora exista incerteza quanto à sua eficácia, deposita-se confiança na capacidade dos indivíduos de utilizar criativamente novas ferramentas e modelos de maneiras excepcionais e inesperadas.
*️⃣ Link da fonte: