NVIDIA的GPU加速架构:硬件调度如何推动2026年CES推理革命

在2026年CES上,NVIDIA首席执行官黄仁勋发表了一场全面的主题演讲,将AI基础设施的讨论重新聚焦于一个统一的核心原则:智能硬件加速和GPU调度,作为推理经济的基础。在1.5小时的演讲中,他揭示了八项重大进展,整体上代表了从以训练为中心的AI向优化推理的系统转变。所有公告的共同线索是,复杂的GPU调度——从计算分配到资源配置——如何实现大规模、低成本、高吞吐量的AI部署。

系统级GPU加速:Vera Rubin平台的革命性设计

NVIDIA战略的核心是Vera Rubin AI超级计算机,这是一个由六个芯片共同设计的系统,重新定义了GPU加速在机架级别的运作方式。该平台的架构——包括Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9 SuperNIC、BlueField-4 DPU和Spectrum-X CPO——标志着从模块化设计向深度集成硬件加速的转变。

Rubin GPU引入了Transformer引擎,达到了高达50 PFLOPS的NVFP4推理性能,比Blackwell提升了5倍。更关键的是,GPU的3.6TB/s NVLink互联带宽和硬件加速张量运算的支持,使前所未有的GPU调度效率成为可能。NVLink 6交换机每条通道速率为400Gbps,协调GPU间通信,整体带宽达28.8TB/s,使系统能够以最小的延迟在GPU之间调度计算。

集成在单个机架的Vera Rubin NVL72系统中,这一硬件加速实现了3.6 EFLOPS的推理性能,比上一代提升了5倍。系统拥有2000亿个晶体管,采用100%液冷设计,实现密集GPU调度而不受热限制。组装时间缩短至五分钟,比前几代快了18倍,体现了标准化GPU加速框架简化部署的优势。

通过智能GPU调度和资源分配提升推理效率

NVIDIA的三款新推理产品直接应对不同系统层面的GPU调度挑战。Spectrum-X以太网光模块(CPO)优化GPU之间的交换网络。通过将光模块直接集成到交换芯片中,CPO实现了5倍的能效提升和5倍的应用正常运行时间改善。这一架构设计确保GPU间调度决策几乎不增加功耗。

NVIDIA推理上下文存储平台解决了不同的调度问题:上下文管理。随着AI模型向多百万令牌窗口的自主推理转变,存储和检索上下文成为主要瓶颈。这个新存储层由BlueField-4 DPU加速,并与NVLink基础设施集成,使GPU能够将键值缓存计算卸载到专用存储节点。结果是推理性能提升5倍,能耗降低5倍——这不仅仅依赖于更快的GPU,而是通过智能调度计算和存储资源实现的。

由八个Vera Rubin NVL72系统组成的NVIDIA DGX SuperPOD,展示了GPU调度在集群级部署中的扩展能力。通过使用NVLink 6实现垂直扩展,利用Spectrum-X以太网实现水平扩展,SuperPOD将大规模专家混合模型(MoE)的令牌成本降低到前一代的十分之一。这10倍的成本降低反映了优化GPU调度的复合效益:减少浪费的计算周期、降低数据传输开销、提高资源利用率。

多层存储与GPU上下文管理:解决新的推理瓶颈

从训练到推理的转变,根本改变了GPU资源的调度方式。在训练期间,GPU利用率是可预测且稳定的。而在推理,尤其是长上下文推理中,请求模式不规则,重用上下文至关重要。NVIDIA的新存储平台通过引入针对推理优化的存储层级解决了这一问题:用于活跃计算的GPU HBM4内存、用于键值缓存管理的新上下文存储层,以及用于持久数据的传统存储。

GPU调度现在必须在计算任务和上下文调度决策之间取得平衡。BlueField-4 DPU加速了这些层级之间的上下文迁移,而智能软件调度GPU内核启动以重叠上下文预取。这一协作设计——涵盖GPU计算、DPU加速和网络效率——消除了以往长上下文推理中频繁出现的KV缓存重复计算。

开源模型与GPU优化框架:构建实体AI生态系统

NVIDIA扩展的开源战略反映出一个认识:GPU加速只有在繁荣的软件生态系统中才能发挥价值。到2025年,NVIDIA已成为Hugging Face上开源模型的最大贡献者,发布了650个模型和250个数据集。这些模型越来越多地针对NVIDIA的GPU调度架构进行优化——利用Transformer引擎、NVFP4精度,并与NVLink内存层级相匹配。

新的“Blueprints”框架使开发者能够组合多模型、混合云的AI系统。这些系统根据延迟和成本智能调度推理任务在本地GPU和云端前沿模型之间。例如,推出的Alpamayo——一个拥有10亿参数的自主驾驶推理模型,展示了这一方法。Alpamayo在推理优化的GPU上运行高效,证明了经过深思熟虑的GPU调度结合模型架构,能够在消费级硬件上实现复杂推理。

西门子将NVIDIA CUDA-X、AI模型和Omniverse集成到工业数字孪生中,将GPU加速扩展到制造和运营领域。这一合作展示了GPU调度框架如何成为整个行业的基础设施。

战略愿景:从GPU计算能力到完整系统加速

NVIDIA的发布序列展现了一种深思熟虑的战略:每一层新产品——从GPU核心设计、网络交换到存储架构——都经过重新考量,以适应推理工作负载。最终形成的系统中,GPU调度不再是次要问题,而是核心设计原则。

黄仁勋指出,“物理AI的ChatGPT时刻已经到来”,这一观点建立在基础设施的支撑之上。配备Alpamayo模型的自动驾驶车辆需要能够在不可预测的条件下进行实时推理的GPU。通过GR00T框架操作的机器人也需要高效调度多模态感知与推理的GPU。这些物理AI应用的实现,正是因为NVIDIA从硅片到软件堆栈重新构想了GPU加速。

NVIDIA正在构建的竞争护城河,结合了三个要素:持续提升GPU调度效率(每一代提升5倍)、开放软件以激励采用(650个模型、250个数据集),以及使硬件与软件的集成变得越来越难以复制。每一场CES 2026的公告——从Vera Rubin的共同设计芯片到上下文存储平台——都在深化GPU加速能力的同时,提高了竞争架构的门槛。

随着AI行业从训练稀缺转向推理丰富,GPU调度成为成本和性能的主要制约因素。NVIDIA的全栈策略确保其硬件加速能力将在未来十年内定义AI基础设施的基础层。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)