Arquitetura acelerada por GPU da NVIDIA: Como o agendamento de hardware impulsiona a revolução da inferência na CES 2026

Na CES 2026, o CEO da NVIDIA Jensen Huang apresentou uma palestra abrangente que reformulou a conversa sobre infraestrutura de IA em torno de um princípio organizador único: aceleração inteligente de hardware e agendamento de GPU como base para a economia de inferência. Ao longo de 1,5 horas, revelou oito desenvolvimentos principais que, coletivamente, representam uma mudança de IA centrada no treino para sistemas otimizados para inferência. O fio condutor que conecta todos os anúncios é como o agendamento sofisticado de GPU — desde a distribuição de computação até a alocação de recursos — possibilita uma implantação de IA de alto rendimento e custo-efetiva em escala.

Aceleração de GPU a nível de sistema: O design revolucionário da Vera Rubin Platform

O centro da estratégia da NVIDIA é o supercomputador de IA Vera Rubin, um sistema co-projetado de seis chips que reinventa como a aceleração de GPU opera ao nível do rack. A arquitetura da plataforma — composta por Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU e Spectrum-X CPO — representa uma saída de designs modulares em direção a uma aceleração de hardware profundamente integrada.

A Rubin GPU introduz o motor Transformer e alcança até 50 PFLOPS de desempenho de inferência NVFP4, um salto de 5x em relação ao Blackwell. Mais criticamente, a largura de banda de interconexão NVLink de 3,6TB/s e o suporte para operações tensor aceleradas por hardware permitem uma eficiência de agendamento de GPU sem precedentes. O NVLink 6 Switch, operando a 400Gbps por lane, coordena a comunicação GPU-para-GPU com uma largura de banda agregada de 28,8TB/s, permitindo que o sistema agende computação entre GPUs com overhead de latência mínimo.

Integrado em um sistema Vera Rubin NVL72 de um único rack, essa aceleração de hardware atinge 3,6 EFLOPS de desempenho de inferência — um aumento de 5x em relação à geração anterior. O sistema possui 2 trilhões de transistores e incorpora resfriamento líquido 100%, possibilitando agendamento denso de GPUs sem restrições térmicas. O tempo de montagem caiu para cinco minutos, 18 vezes mais rápido que gerações predecessoras, refletindo como frameworks padronizados de aceleração de GPU simplificam a implantação.

Eficiência de inferência através de agendamento inteligente de GPU e alocação de recursos

Os três novos produtos de inferência da NVIDIA abordam diretamente o desafio de agendamento de GPU em diferentes camadas do sistema. A Spectrum-X Ethernet com ópticas integradas (CPO) otimiza a malha de comutação entre GPUs. Ao incorporar ópticas diretamente no silicon de comutação, o CPO alcança 5x melhor eficiência energética e 5x maior tempo de atividade de aplicações. Essa escolha arquitetônica garante que as decisões de agendamento GPU-para-GPU tenham um impacto mínimo no consumo de energia.

A Plataforma de Armazenamento de Memória de Contexto de Inferência da NVIDIA enfrenta um problema de agendamento diferente: gerenciamento de contexto. À medida que os modelos de IA evoluem para raciocínio agentico com janelas de milhões de tokens, armazenar e recuperar contexto torna-se o principal gargalo. Essa nova camada de armazenamento, acelerada pelo BlueField-4 DPU e integrada à infraestrutura NVLink, permite que as GPUs descarreguem o computo de cache de chave-valor para nós de armazenamento dedicados. O resultado é um desempenho de inferência 5x melhor e consumo de energia 5x menor — alcançado não apenas por GPUs mais rápidas, mas por um agendamento inteligente de recursos de computação e armazenamento.

O SuperPOD DGX da NVIDIA, construído com oito sistemas Vera Rubin NVL72, demonstra como o agendamento de GPU escala em uma implantação a nível de pod. Usando NVLink 6 para escalabilidade vertical e Spectrum-X Ethernet para escalabilidade horizontal, o SuperPOD reduz os custos de tokens para modelos de mistura de especialistas (MoE) a 1/10 da geração anterior. Essa redução de custo de 10x reflete os retornos compostos de um agendamento de GPU otimizado: menos ciclos de computação desperdiçados, menor overhead de movimentação de dados e melhor utilização de recursos.

Armazenamento multi-nível e gerenciamento de contexto de GPU: resolvendo o novo gargalo de inferência

A transição do treino para a inferência muda fundamentalmente como os recursos de GPU devem ser agendados. Durante o treino, a utilização de GPU é previsível e constante. Durante a inferência, especialmente na inferência de longo contexto, os padrões de requisição são irregulares, e o reuso de contexto é crítico. A nova plataforma de armazenamento da NVIDIA aborda isso ao introduzir uma hierarquia de memória otimizada para inferência: memória GPU HBM4 para computação ativa, a nova camada de memória de contexto para gerenciamento de cache de chave-valor, e armazenamento tradicional para dados persistentes.

O agendamento de GPU agora deve equilibrar tarefas de computação com decisões de agendamento de contexto. O BlueField-4 DPU acelera os movimentos de contexto entre essas camadas, enquanto softwares inteligentes agendam lançamentos de kernels de GPU para sobrepor com pré-besquisa de contexto. Essa colaboração — abrangendo computação de GPU, aceleração DPU e eficiência de rede — elimina os recálculos redundantes de cache KV que antes atormentavam a inferência de longo contexto.

Modelos abertos e frameworks otimizados para GPU: construindo o ecossistema físico de IA

A estratégia expandida de código aberto da NVIDIA reflete o reconhecimento de que a aceleração de GPU só entrega valor dentro de um ecossistema de software vibrante. Em 2025, a NVIDIA tornou-se a maior contribuinte para modelos de código aberto no Hugging Face, lançando 650 modelos e 250 conjuntos de dados. Esses modelos estão cada vez mais otimizados para a arquitetura de agendamento de GPU da NVIDIA — exploram motores Transformer, utilizam precisão NVFP4 e alinham-se às hierarquias de memória NVLink.

A nova estrutura “Blueprints” permite que desenvolvedores componham sistemas de IA híbridos multi-modelo e multi-nuvem. Esses sistemas agendam inteligentemente tarefas de inferência entre GPUs locais e modelos de fronteira na nuvem, com base em latência e custo. O lançamento do Alpamayo, um modelo de raciocínio de 10 bilhões de parâmetros para condução autônoma, exemplifica essa abordagem. O Alpamayo funciona eficientemente em GPUs otimizadas para inferência, demonstrando como um agendamento de GPU cuidadoso — aliado à arquitetura do modelo — possibilita raciocínio sofisticado em hardware de nível consumidor.

A integração da Siemens do NVIDIA CUDA-X, modelos de IA e Omniverse em gêmeos digitais industriais estende a aceleração de GPU para manufatura e operações. Essa parceria ilustra como frameworks de agendamento de GPU se tornam infraestrutura para indústrias inteiras.

Visão estratégica: de poder de computação de GPU a aceleração completa de sistemas

A sequência de anúncios da NVIDIA revela uma estratégia deliberada: cada nova camada de produto — do design do núcleo de GPU até a comutação de rede e arquitetura de armazenamento — foi revista para cargas de trabalho de inferência. O resultado é um sistema onde o agendamento de GPU não é mais uma preocupação secundária, mas o princípio central de design.

A observação de Jensen Huang de que o “momento ChatGPT para IA física chegou” está fundamentada nessa base de infraestrutura. Veículos autônomos equipados com modelos Alpamayo requerem GPUs capazes de agendar inferência em tempo real sob condições imprevisíveis. Robôs operando via frameworks GR00T demandam GPUs que agendem de forma eficiente percepção multimodal e raciocínio. Essas aplicações de IA física só são possíveis porque a NVIDIA reinventou a aceleração de GPU desde o nível de silício até a pilha de software.

A barreira competitiva que a NVIDIA está construindo combina três elementos: avanços contínuos na eficiência de agendamento de GPU — melhorias de 5x geração após geração(, abertura de software para incentivar adoção — 650 modelos, 250 conjuntos de dados), e tornar a integração hardware-software progressivamente mais difícil de replicar. Cada anúncio na CES 2026 — desde os chips co-projetados Vera Rubin até a plataforma de memória de contexto — aprofunda as capacidades de aceleração de GPU enquanto eleva a fasquia para arquiteturas concorrentes.

À medida que a indústria de IA transita de escassez de treino para abundância de inferência, o agendamento de GPU emerge como a principal restrição de custo e desempenho. A abordagem de pilha completa da NVIDIA garante que suas capacidades de aceleração de hardware definirão a camada de infraestrutura para a próxima década de desenvolvimento de infraestrutura de IA.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)