Contents

NVIDIA e Supermicro na pilha de tecnologia de IA de geração crítica para o sucesso

/pt/images/nvidia-and-supermicro-on-the-gen-ai-tech-stack-critical-for-success.jpg

Apresentado pela Supermicro e NVIDIA

A inteligência artificial generativa apresenta potencial para um retorno substancial do investimento; no entanto, requer uma imensa quantidade de poder e recursos computacionais. Em nosso recente evento VB Spotlight, especialistas da NVIDIA e da Supermicro se aprofundaram na identificação de áreas de aplicação essenciais e na construção da infraestrutura necessária para alcançar o sucesso na implementação de recursos de IA.

Assista gratuitamente sob demanda agora.

A IA generativa poderia adicionar o equivalente a US$ 2,6 trilhões a US$ 4,4 trilhões anualmente em todos os setores. Mas também consome muitos recursos, consumindo exponencialmente mais computação, recursos, rede e armazenamento do que qualquer tecnologia anterior. Acessar e processar dados, personalizar modelos pré-treinados e executá-los de maneira ideal e em escala requer uma pilha completa de hardware e software prontos para IA, juntamente com novos conhecimentos técnicos.

Em uma conversa facilitada por Luis Ceze, cofundador e CEO da OctoML, Anthony Larijani, gerente sênior de marketing de produtos da NVIDIA, e Yusuke Kondo, gerente sênior de marketing de produtos da Supermicro discutiram estratégias para implementar IA generativa nas organizações, explorando aplicações potenciais por meio de experimentos. abordagens e identificando os principais componentes tecnológicos necessários para apoiar tais iniciativas.

Decisões de infraestrutura e considerações sobre carga de trabalho

Atender aos requisitos de infra-estrutura necessários é um pré-requisito crítico, de acordo com a perspectiva de Larijani.

Prever o objetivo final é fundamental, pois permite conceber o uso pretendido e prever a natureza das tarefas a serem executadas na infraestrutura. Por exemplo, se o objectivo é treinar um modelo substancial que requer recursos computacionais significativos, a abordagem pode diferir do fornecimento de resultados instantâneos para numerosos utilizadores que procuram respostas rápidas.

A escalabilidade é um fator essencial que deve ser considerado ao avaliar o desempenho de um modelo de aprendizado de máquina em ambientes de produção. Além de determinar a capacidade do modelo para lidar com a sua carga de trabalho atual, é crucial prever potenciais alterações na procura e garantir que o sistema pode acomodá-las de forma eficaz. Esta consideração abrange vários aspectos relacionados à natureza das tarefas de inferência que estão sendo executadas, como processamento em lote versus aplicações em tempo real, como chatbots interativos.

Considerações sobre nuvem versus local

A implementação de tecnologias gerais de Inteligência Artificial (IA) muitas vezes necessita da utilização de recursos significativos, levando assim à reflexão sobre a utilização de infra-estruturas baseadas na nuvem ou no local. Segundo Kondo, esta determinação depende muito dos requisitos específicos e do escopo da aplicação em questão; no entanto, continua a ser uma escolha essencial e fundamental.

Utilizar a nuvem proporciona maior flexibilidade e alcance. Com a capacidade de expandir conforme necessário, é possível ajustar seus recursos de acordo, sem quaisquer restrições. Por outro lado, ao optar por uma solução local, é necessário prever as demandas futuras e alocar fundos suficientes para recursos computacionais antes da implementação. Esta abordagem requer um investimento inicial significativo.

A utilização de inteligência artificial generativa apresenta um elevado conjunto de preocupações relativas à confidencialidade dos dados, particularmente quando se fornece informação a uma aplicação pública como o ChatGPT. Além disso, levanta questões relativas à autoridade-você deseja regular todos os aspectos do processo ou confiar apenas na API é suficiente? Além disso, as despesas financeiras desempenham um papel, e isso depende se se está em fase inicial de experimentação ou se pretende expandir as suas operações.

Ao avaliar o escopo de um projeto, é essencial determinar se a utilização de uma solução em nuvem baseada em GPU é viável e econômica. À medida que a tecnologia avança, o custo das instâncias de GPU continua a diminuir enquanto o seu poder computacional aumenta. Consequentemente, investir na própria infraestrutura de IA pode não ser necessário se a nuvem GPU oferecer desempenho comparável a um custo menor. Portanto, testar um projeto com a nuvem GPU pode economizar recursos significativos.

Código aberto versus modelos proprietários

Há uma tendência crescente no cenário atual de adoção de modelos de menor escala, altamente personalizados e focados em nichos para implantação em vários aplicativos dentro de uma organização, de acordo com as observações de Larijani. O advento de métodos inovadores, como a geração de recuperação aumentada, permitiu que as empresas utilizassem eficientemente grandes modelos de linguagem (LLMs), incorporando seus próprios conjuntos de dados exclusivos-esse desenvolvimento influencia significativamente a seleção da arquitetura de TI subjacente. Esses modelos personalizados normalmente necessitam de processos de treinamento menos extensos.

Ao utilizar a capacidade de reciclagem seletiva dos modelos de IA, podemos reduzir significativamente o tempo e as despesas de treinamento. Esta abordagem permite que os clientes aloquem os seus recursos de forma criteriosa, priorizando requisitos de alto desempenho e, ao mesmo tempo, beneficiando de alternativas mais económicas para tarefas menos exigentes.

Ao determinar o tamanho adequado de um modelo para requisitos específicos, seja uma solução de código aberto ou proprietária, quais considerações são levadas em consideração e como se procede nesse processo?

Em essência, adaptar os modelos básicos a uma aplicação específica é crucial ao empregar alternativas de código aberto, uma vez que tem impacto direto na alocação de recursos e no retorno do investimento. O Sr. Kondo enfatiza que não se deve desperdiçar os recursos destinados a estes esforços.

Maximizando o hardware com sua pilha de software

Para aproveitar totalmente o hardware selecionado, é crucial considerar uma coleção complexa de componentes de software que formam a base da arquitetura do sistema.

Kondo destaca que o processo de implementação de clusters de GPU vai além de um único nível, abrangendo tanto o escalonamento de rack quanto a implantação em nível de cluster. A complexidade envolvida na gestão de infra-estruturas de grande escala necessita de colaboração entre a Fujitsu e os especialistas da NVIDIA desde o início, estendendo-se à personalização de designs de hardware de acordo com as bibliotecas de software e especificações arquitectónicas fornecidas pela NVIDIA. Esta estreita parceria permite o desenvolvimento de soluções personalizadas que atendam de forma eficaz às necessidades dos clientes.

O desenvolvimento de um conjunto abrangente de software de inteligência artificial representa um esforço multifacetado e exigente, afirma Larijani, levando a decisão da NVIDIA de evoluir para uma organização de computação de espectro total, abrangendo tanto os componentes de infraestrutura quanto os sistemas de software que operam sobre ela. A título de exemplo, a estrutura Nemo, incorporada à plataforma empresarial NVIDIA AI, fornece uma solução abrangente para os clientes construírem, personalizarem e implementarem uma ampla gama de arquiteturas e programas generativos de IA. Essa ferramenta versátil pode agilizar o processo de otimização do treinamento de modelos e, ao mesmo tempo, distribuir com eficácia um grande número de unidades de processamento gráfico (GPUs) em vários nós. Além disso, uma vez preparados estes modelos, o N

A integração do Nemesis com ferramentas existentes do cliente, como o servidor de inferência Triton, permite uma implantação perfeita em uma ampla variedade de plataformas, incluindo aquelas que utilizam sistemas Supermicro certificados pela NVIDIA. O uso de um compilador otimizado permite uma implantação eficiente, mantendo altos níveis de desempenho em termos de rendimento e baixa latência.

À prova de futuro contra a crescente complexidade dos LLMs

Como observa Kondo, os grandes modelos de linguagem (LLMs) continuam a expandir-se diariamente a um ritmo exponencial, sem qualquer indicação de desaceleração à vista. No entanto, uma preocupação premente surge desta rápida proliferação – nomeadamente, o aspecto da sustentabilidade. Além disso, as substanciais demandas de energia associadas à manutenção dessas infra-estruturas de servidores também são motivo de apreensão.

A potência atual do HGXH100 é de 700 watts por GPU, que prevemos que aumentará para 1.000 watts no futuro", observa ele. “Em comparação com uma década atrás, esse nível de desempenho é notável. Para enfrentar esse desafio, nós estamos investindo em uma solução integrada totalmente refrigerada a líquido. Esta abordagem não apenas reduz o consumo de energia, mas também desempenha um papel essencial no avanço da computação verde, que é uma prioridade fundamental para nós, pois permite a inovação contínua.

Os avanços no desenvolvimento de software continuam a impulsionar a eficiência na implantação de modelos, tanto para fins de treinamento quanto para prestação de atendimento ao cliente. As técnicas emergentes oferecem às organizações uma oportunidade de aproveitar estes benefícios, mantendo ao mesmo tempo a acessibilidade e a sustentabilidade ambiental, de acordo com a perspectiva de Larijani.

Na verdade, parece que há uma procura crescente de sistemas avançados e de alto desempenho para apoiar a formação de tais modelos, com novas abordagens a serem continuamente desenvolvidas para facilitar a sua implementação. Regularmente, observamos o surgimento de aplicações inovadoras para inteligência artificial, o que sugere uma riqueza de desenvolvimentos interessantes nesta área. No futuro, nosso foco será aumentar a eficiência dessas tecnologias por meio de esforços de otimização de software.

Para obter mais informações sobre as estratégias que as organizações podem empregar para otimizar seus investimentos em IA generativa e construir uma infraestrutura tecnológica preparada para o sucesso, não ignore nossa próxima apresentação VB Spotlight!

Assista gratuitamente sob demanda aqui.

Agenda

Para obter sucesso na implementação de tecnologias de IA numa organização, é importante identificar casos de utilização relevantes que se alinhem com objetivos de negócio específicos. Isto pode envolver o aproveitamento de modelos existentes e fontes de dados internas para desenvolver soluções personalizadas. A integração de capacidades de computação aceleradas pode aumentar ainda mais a eficiência destes processos e permitir decisões de negócios mais informadas. Para maximizar os benefícios potenciais das tecnologias de IA, as organizações também devem considerar cuidadosamente a sua infraestrutura e arquitetura de sistema, selecionando componentes de hardware e software apropriados com base nos requisitos exclusivos de várias cargas de trabalho.

Apresentadores

O painel foi moderado por Luis Ceze, cofundador e CEO da OctoML e professor da Universidade de Washington. Junto com ele estavam Yusuke Kondo, gerente sênior de marketing de produto da Supermicro, e Anthony Larijani, também gerente sênior de marketing de produto, mas desta vez da NVIDIA.

*️⃣ Link da fonte:

US$ 2,6 trilhões a US$ 4,4 trilhões anuais em todos os setores ,