Grok AI de Musk torna-se código aberto
Fiel à sua palavra, a startup xAI do bilionário multiempresa Elon Musk tornou hoje seu primeiro modelo de linguagem grande (LLM) Grok de código aberto.
A mudança, que Musk havia proclamado anteriormente que aconteceria esta semana, agora permite que qualquer outro empresário, programador, empresa ou indivíduo assuma o peso de Grok – a força das conexões entre os “neurônios” artificiais do modelo, ou módulos de software que permitem ao modelo tomar decisões e aceitar entradas e fornecer resultados na forma de texto-e outra documentação associada e usar uma cópia do modelo para o que quiserem, inclusive para aplicações comerciais.
“Estamos lançando os pesos do modelo básico e a arquitetura de rede do Grok-1, nosso grande modelo de linguagem”, anunciou a empresa em um blog. “Grok-1 é um modelo de mistura de especialistas de 314 bilhões de parâmetros treinado do zero por xAI.”
Os interessados podem baixar o código do Grok em sua página do Github ou através de um link de torrent.
O que significa código aberto da Grok
Parâmetros referem-se aos pesos e tendências que governam o funcionamento do modelo-quanto mais parâmetros, geralmente mais avançado, complexo e de desempenho é o modelo. Com 314 bilhões de parâmetros, Grok está bem à frente de concorrentes de código aberto, como o Llama 2 da Meta (70 bilhões de parâmetros) e o Mistral 8x7B (12 bilhões de parâmetros).
Grok foi de código aberto sob uma licença Apache 2.0, que permite uso comercial, modificações e distribuição, embora não possa ser marca registrada e não haja nenhuma responsabilidade ou garantia que os usuários recebam com ele. Além disso, eles devem reproduzir a licença original e o aviso de direitos autorais e declarar as alterações feitas.
A estrutura arquitetônica de Grok, que foi construída sobre uma pilha de treinamento personalizada aproveitando JAX e Rust durante outubro de 2023, apresenta metodologias de ponta relativas ao design de redes neurais. Este modelo específico emprega uma alocação de 25% de seu peso total para o processamento de cada token individual, uma tática que não apenas otimiza seu desempenho, mas também reforça sua potência geral.
Grok foi apresentado pela primeira vez como um modelo de código fechado em novembro de 2023, disponível exclusivamente na plataforma subsidiária de Elon Musk, X (anteriormente conhecida como Twitter). O acesso a este modelo de linguagem de IA foi limitado aos usuários que assinaram o plano X Premium+, a um custo de US$ 16 por mês ou US$ 168 anualmente.
No entanto, o lançamento do Grok não inclui o corpus completo dos seus dados de treinamento. Isso realmente não importa para o uso do modelo, uma vez que ele já foi treinado, mas não permite que os usuários vejam o que aprenderam-presumivelmente postagens de texto do usuário no X (a postagem do blog xAI afirma isso de forma opaca como “Modelo básico treinado em uma grande quantidade de dados de texto, não ajustado para nenhuma tarefa específica.”)
A iteração atual do Grok carece de integração com dados em tempo real fornecidos pelo X, um recurso que Elon Musk anunciou anteriormente como uma de suas principais distinções dos grandes modelos de linguagem (LLMs) concorrentes. Para acessar esta funcionalidade, os clientes devem atualizar para o nível premium oferecido pelo X.
Mais do que apenas uma mudança tecnológica-uma estratégia de negócios e relações públicas
Projetado para rivalizar com o ChatGPT feito pela OpenAI, a empresa que Musk cofundou e rompeu amargamente em 2018 e com a qual agora compete, Grok recebeu o nome de uma gíria que significa “compreensão” e é descrito como “uma IA modelada a partir do Guia do Mochileiro to the Galaxy”, o drama de rádio seminal dos anos 1970 e a série de livros satíricos de ficção científica do autor britânico Douglas Adams (foi adaptado para um grande filme em 2005).
Musk posicionou Grok favoravelmente como uma versão mais bem-humorada e sem censura do ChatGPT e de outros LLMs importantes, uma postura que assumiu uma atratividade renovada entre os usuários em geral, à luz das reclamações de censura de IA e das embaraçosas gerações de imagens raciais confusas e posturas ideológicas questionáveis do Google Gemini. (Gemini sugeriu em pelo menos um exemplo que os tweets de Musk eram possivelmente tão ruins para a sociedade quanto o líder nazista Adolf Hitler). É claro que Gemini foi duramente criticado por Musk e outros líderes tecnológicos influentes, incluindo o cofundador da a16z e pioneiro da web, Marc Andreessen.
O lançamento de código aberto de Grok pode ser visto como uma posição ideologicamente vantajosa para Elon Musk em sua disputa legal com a OpenAI, dado seu recente processo contra a organização por supostamente violar seu acordo de fundação para permanecer uma entidade sem fins lucrativos. As correspondências por e-mail reveladas durante a defesa da OpenAI no tribunal da opinião pública sugerem que Musk pode ter estado ciente ou mesmo apoiado a sua transição para tecnologias proprietárias e com fins lucrativos.
A comunidade de IA no X já reagiu ao lançamento com curiosidade e entusiasmo. Notavelmente, a comunidade técnica apontou o uso de GeGLU pelo modelo em camadas feedforward e sua abordagem para normalização, com um aceno para a intrigante técnica de norma sanduíche. Até mesmo funcionários da OpenAI postaram sobre seu interesse no modelo.
Poucos comentários sobre o lançamento do código Grok-1 em JAX! https://t.co/FpDCrCgz3l
Olhando rapidamente: – modelo bem escrito – as regras de partição para fragmentação seguem o estilo antigo do t5x – eles usaram haicai, mas não seria muito difícil atualizar para linho – eles usam shard_map nas camadas MoE para…
-Boris Dayma ?️ (@borisdayma) 17 de março de 2024
A disseminação do Grok pode exercer uma influência considerável sobre todos os prestadores de serviços alternativos do Large Language Model (LLM), particularmente aqueles que operam como alternativas de código aberto, obrigando-os a demonstrar a sua excepcionalidade em relação aos potenciais utilizadores finais.
*️⃣ Link da fonte:
criou seu primeiro modelo de linguagem grande (LLM) Grok de código aberto , pesos , uma postagem no blog , Grok em sua página no Github , através de um link de torrent , Parâmetros , Meta’s Llama 2 (70 bilhões de parâmetros) , Mistral 8x7B (12 bilhões parâmetros) , Licença Apache 2.0 , A postagem do blog xAI afirma, gíria, drama de rádio seminal dos anos 1970 e série de livros satíricos de ficção científica, grande filme de 2005 , cofundador da a16z e pioneiro da web, Marc Andreessen , postou sobre seu interesse no modelo , https://t.co/FpDCrCgz3l , 17 de março de 2024 ,