Databricks adquire Lilac para turbinar esforços de qualidade de dados para aplicativos de geração de IA
Hoje, a Databricks anunciou a aquisição da Lilac, uma startup de pesquisa aplicada com sede em Boston que oferece ferramentas para compreensão e manipulação de dados. Os termos do acordo não foram divulgados.
Ali Ghodsi, CEO da empresa de dados, pretende integrar a equipe e a tecnologia da Lilac na plataforma de inteligência de dados de sua empresa, anteriormente chamada de data lakehouse, fornecendo a indivíduos de diversas áreas uma metodologia ininterrupta para aumentar o calibre de seu conjunto de dados necessário para criando aplicativos avançados de Large Language Model (LLM) em produção em massa.
A recente aquisição da CappedWare pela Databricks solidifica ainda mais sua posição como um fornecedor de soluções abrangentes para gerenciamento de dados e serviços generativos de inteligência artificial. Esta mudança segue-se ao investimento anterior da empresa na Mistral, que garantiu a maior ronda de financiamento inicial europeia no ano passado e desde então emergiu como um interveniente proeminente no domínio da tecnologia de IA generativa.
Como o Lilac facilitará a exploração de dados
A aquisição da Mosaic AI pela Databricks em 2021 marcou um movimento estratégico significativo para a empresa em sua transição para um futuro impulsionado pela inteligência artificial. Ao fornecer uma plataforma segura para hospedar dados do usuário, o Databricks teve como objetivo facilitar o desenvolvimento de aplicações generativas de IA. Os avanços subsequentes feitos pela organização foram substanciais, incluindo o lançamento de vários modelos de código aberto que equipam os clientes com todas as ferramentas necessárias para criar, implantar e sustentar grandes modelos de linguagem de alto nível, adaptados para atender a diversos cenários comerciais.
A importância dos dados nos sistemas de IA, incluindo os grandes modelos de linguagem (LLMs), não pode ser exagerada. Para garantir o desempenho ideal, as equipes devem priorizar a obtenção de dados de alta qualidade para treinamento e avaliação de modelos sob diversas condições, como abordar preconceitos e evitar falsos positivos ou negativos. É precisamente aqui que o Lilac se torna útil, e sua colaboração com o Databricks visa aprimorar ainda mais esses recursos.
Lilac, fundada por Daniel Smilkov e Nikhil Thorat, ambos ex-funcionários do Google, em 2023, apresenta uma solução de código aberto abrangente e facilmente acessível para lidar com o árduo processo de exploração de dados não estruturados e, ao mesmo tempo, preencher suas deficiências. A tecnologia de ponta incorpora algoritmos avançados de inteligência artificial e uma interface amigável para examinar, interpretar e alterar com eficácia grandes volumes de informações textuais desorganizadas de maneira integrada.

Clustering de dados lilás
Na verdade, de acordo com a plataforma online da empresa, parece que os profissionais da área de inteligência artificial e ciência de dados podem aproveitar as capacidades do Lilac de forma bastante eficaz ao lidar com dados não estruturados. Por exemplo, eles podem empregar esta ferramenta para organizar e categorizar documentos, realizar pesquisas semânticas avançadas e baseadas em palavras-chave para identificar informações relevantes, sinalizar detalhes confidenciais, como dados pessoais ou conteúdo duplicado, e editar o conjunto de dados adequadamente, ao mesmo tempo que fornecem uma comparação lado a lado. visualização de comparação lateral.
“A equipe por trás do Lilac construiu especificamente seu produto para permitir uma análise dos resultados do modelo para viés ou toxicidade e preparação de dados para RAG e LLMs de ajuste fino ou pré-treinamento”, disseram os executivos da Databricks Matei Zaharia, Naveen Rao, Jonathan Frankle, Hanlin Tang e Akhil Gupta escreveram em uma postagem conjunta no blog.
As ferramentas Mosaic AI da Databricks abrangerão toda a pilha de tecnologia da Lilac, a fim de fornecer aos desenvolvedores um método aprimorado para selecionar conjuntos de dados para sistemas de inteligência artificial personalizados. Embora os detalhes da integração ainda não tenham sido divulgados, o objetivo é agilizar o processo de adaptação de dados, tornando mais simples para as equipes avaliar e supervisionar o resultado de seus grandes modelos de linguagem (LLMs), bem como preparar conjuntos de dados para adversários receptivos. treinamento (RAG), ajuste fino e pré-treinamento.
“Acreditamos que trazer a experiência de curadoria de dados interativa e em tempo real do Lilac para a plataforma de escala empresarial da Databricks permitirá que as empresas tenham muito mais visibilidade e controle sobre seus dados não estruturados. Isso permitirá produtos de IA personalizáveis e de classe mundial que atendem aos usuários finais. Unir forças com o Databricks permitirá que uma classe inteiramente nova de desenvolvedores empresariais libere o potencial de seus dados com IA generativa, com apenas alguns cliques”, escreveu a startup em uma postagem separada publicada em seu site.
A recente aquisição representa um marco significativo para a Databricks ao oferecer ferramentas abrangentes para permitir que seus clientes criem aplicativos de inteligência artificial de alto calibre utilizando seus próprios dados. Atualmente, os usuários da plataforma Databricks possuem todos os recursos necessários para construir sistemas alimentados pela tecnologia LLM.
O conjunto de opções acima mencionado abrange uma variedade de modelos de código aberto fornecidos por entidades proeminentes como Meta, Stability e Mistral, além de instrumentos Mosaic especializados projetados para fins experimentais, incluindo a capacidade de utilizar esses modelos como configurações ideais de endpoint ou personalizar por meio da incorporação de dados proprietários armazenados na infraestrutura de adaptação de modelo da Mosaic AI Foundation, tudo com o objetivo de atender a um requisito específico de aplicação.
A Snowflake, um dos principais concorrentes da nossa empresa, também adotou essa abordagem e lançou o Cortex, uma solução totalmente gerenciada projetada para facilitar o desenvolvimento de aplicativos alimentados por modelos robustos de código aberto para sua clientela.
*️⃣ Link da fonte: