Contents

Como os LLMs chegaram à pilha de dados moderna em 2023

/pt/images/how-llms-made-their-way-into-the-modern-data-stack-in-2023.jpg

Quando o ChatGPT surgiu, há mais de doze meses, apresentou aos usuários da Internet um sempre presente auxiliar de inteligência artificial para fins de comunicação e produtividade. A ferramenta versátil gerenciou com eficiência uma ampla gama de atividades diárias, incluindo a geração de textos coerentes, como ensaios, e a dissecação de conjuntos de dados complexos. Esta aplicação inovadora rapidamente ganhou destaque, atraindo interesse global para a base tecnológica inovadora que a sustentou – especificamente, a sequência GPT de ponta de modelos avançados de grandes linguagens (LLMs).

Na contemporaneidade, os Large Language Models (LLMs), como a série GPT, tornaram-se fundamentais na execução de tarefas individuais específicas e de vastas operações em nível empresarial. As empresas agora utilizam modelos comerciais de API e soluções de código aberto para agilizar processos de rotina e aumentar a eficiência em vários departamentos. Por exemplo, é possível interagir com a inteligência artificial para criar campanhas publicitárias para equipes de marketing ou agilizar as operações de atendimento ao cliente acessando instantaneamente bancos de dados relevantes quando necessário.

A influência dos LLMs na arquitectura de informação contemporânea tem sido notável, mas existe um domínio em que o seu significado permanece subestimado-sendo o conjunto de dados contemporâneo.

LLMs transformando a pilha de dados

Os dados servem como um elemento crucial na promoção da eficácia de modelos robustos de grandes linguagens. Consequentemente, quando tais modelos são adequadamente treinados, possuem a capacidade de facilitar a colaboração entre equipas, permitindo-lhes manipular ou conduzir análises complexas nos seus recursos de dados.

Ao longo do ano passado, inúmeras empresas que fornecem serviços relacionados com dados a empresas integraram inteligência artificial generativa nas suas operações para aumentar a satisfação do cliente. Ao aproveitar as capacidades dos modelos de linguagem avançados, estas entidades procuraram agilizar o processo para os clientes, poupando assim tempo e recursos. Esta abordagem permitiu que os utilizadores se dedicassem a assuntos mais críticos, melhorando em última análise a eficiência global.

A introdução de recursos de consulta conversacional por fornecedores de LLM marcou um ponto de viragem significativo, pois permitiu aos usuários obter insights de dados estruturados por meio de interações em linguagem natural, em vez de ter que formular consultas SQL complexas. Essa abordagem amigável permitiu que mesmo aqueles sem conhecimento técnico acessassem sem esforço informações armazenadas em formatos estruturados, como tabelas e planilhas, simplesmente inserindo solicitações textuais intuitivas e recebendo respostas geradas pelo LLM que as traduziam em comandos SQL executáveis ​​e executavam a pesquisa correspondente. operações nos conjuntos de dados designados.

um “copiloto” projetado como um assistente de conversação interativo para consultar dados usando linguagem natural, refinando consultas e filtrando resultados; e uma ferramenta Document AI para extrair informações pertinentes de fontes não estruturadas, como imagens e arquivos PDF. Da mesma forma, a Databricks desenvolveu o LakehouseIQ para aproveitar o poder da PNL em tarefas de gerenciamento de dados.

Certamente, tem havido um influxo de atividades de startups no domínio da análise orientada por IA, incluindo aquelas que atendem especificamente a este setor. Um exemplo é o DataGPT, com sede na Califórnia, que oferece um analista de IA especializado, projetado para facilitar o gerenciamento eficiente de consultas por meio de recursos de processamento rápido em seu extenso banco de dados. O sistema fornece respostas de forma conversacional, tornando-o uma solução altamente fácil de usar para empresas que buscam insights analíticos avançados.

Ajudando no gerenciamento de dados e nos esforços de IA

Além de facilitar a extração de insights e respostas de fontes de dados por meio de entrada em linguagem natural, os LLMs assumiram a responsabilidade de automatizar diversas tarefas normalmente executadas manualmente no gerenciamento de dados, além de contribuir significativamente para o desenvolvimento de um sistema avançado de inteligência artificial.

Em maio, a Informatica, fornecedora de nuvem de gerenciamento inteligente de dados, apresentou Claire GPT, uma solução de inteligência artificial conversacional de última geração projetada para gerenciar ativos de dados por meio de entrada de linguagem natural. Este sistema inovador suporta diversas tarefas em todo o ecossistema IDMC, como identificar, manipular, examinar metadados, avaliar a qualidade dos dados e gerar regras relacionadas ao controle de qualidade dos dados.

Então, para ajudar as equipes a criar ofertas de IA, a Refuel AI, com sede na Califórnia, fornece um grande modelo de linguagem desenvolvido especificamente que ajuda na rotulagem de dados e nas tarefas de enriquecimento. Um artigo publicado em outubro de 2023 também mostra que os LLMs podem fazer um bom trabalho na remoção de ruído dos conjuntos de dados, o que também é um passo crucial na construção de uma IA robusta.

Além da limpeza e pré-processamento de dados, existem vários outros domínios da engenharia de dados que podem se beneficiar da utilização de grandes modelos de linguagem (LLMs). Uma dessas áreas é a integração e orquestração de dados, que envolve a geração do código necessário para tarefas como a conversão de formatos de dados diferentes em uma estrutura unificada, conexão com várias fontes de dados e criação de gráficos acíclicos direcionados ao fluxo de ar (DAGs) usando modelos de código YAML ou Python..

Muito mais por vir

Em apenas um ano desde o surgimento dos grandes modelos de linguagem (LLMs), ocorreram transformações significativas no âmbito das empresas. Com avanços contínuos na tecnologia LLM previstos para 2024 e esforços criativos contínuos, espera-se que estes modelos sejam cada vez mais utilizados em vários aspectos do ecossistema de dados empresariais, expandindo-se até mesmo para a área nascente de observabilidade de dados que está atualmente em desenvolvimento.

Monte Carlo, uma entidade proeminente no domínio das ferramentas de processamento de dados, lançou o Fix with AI, uma solução inovadora projetada para identificar discrepâncias nos pipelines de dados e fornecer recomendações para resolver esses problemas. Da mesma forma, a Acceldata, um participante significativo nesta área, fez uma aquisição estratégica da Bewgle para concentrar os seus esforços na integração de Large Language Models (LLM) como parte das suas ofertas de observabilidade de dados.

À medida que os avanços na tecnologia de modelos de linguagem continuam a evoluir, é cada vez mais crítico que os esforços da equipa garantam que estes sistemas, quer sejam desenvolvidos de novo ou refinados através de formação adicional, operem com precisão ideal. Qualquer pequeno desvio pode levar a consequências significativas, resultando em experiências abaixo do ideal para o cliente e prejudicando o sucesso geral.

*️⃣ Link da fonte:

artigo ,