На CES 2026 генеральный директор NVIDIA Jensen Huang выступил с масштабной презентацией, которая переосмыслила разговор об инфраструктуре ИИ, сосредоточив внимание на едином организующем принципе: интеллектуальном аппаратном ускорении и планировании GPU как основы экономики вывода. За 1,5 часа он представил восемь ключевых разработок, которые в совокупности отражают переход от обучения, ориентированного на ИИ, к системам, оптимизированным для вывода. Общая нить, связывающая все анонсы, — это то, как продвинутое планирование GPU — от распределения вычислений до распределения ресурсов — позволяет осуществлять экономически эффективное, высокопроизводительное развертывание ИИ в масштабах.
Аппаратное ускорение на системном уровне: революционный дизайн платформы Vera Rubin
Ключевым элементом стратегии NVIDIA является суперкомпьютер Vera Rubin AI — система, спроектированная совместно из шести чипов, которая переосмысливает работу GPU-ускорения на уровне стойки. Архитектура платформы — включающая Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU и Spectrum-X CPO — представляет собой отход от модульных конструкций в сторону глубоко интегрированного аппаратного ускорения.
GPU Rubin вводит движок Transformer и достигает до 50 PFLOPS производительности вывода на NVFP4, что в 5 раз превышает Blackwell. Более важно, что пропускная способность межсоединения NVLink 3.6TB/с и поддержка аппаратных тензорных операций позволяют добиться беспрецедентной эффективности планирования GPU. NVLink 6 Switch, работающий на скорости 400 Гбит/с на линию, координирует коммуникацию GPU с GPU с общей пропускной способностью 28,8 ТБ/с, что позволяет системе планировать вычисления между GPU с минимальной задержкой.
Интегрированный в систему Vera Rubin NVL72 в одной стойке, этот аппаратный ускоритель достигает 3,6 EFLOPS производительности вывода — в 5 раз лучше предыдущего поколения. В системе использовано 2 триллиона транзисторов и реализовано 100% жидкостное охлаждение, что позволяет плотное планирование GPU без тепловых ограничений. Время сборки снизилось до пяти минут, что в 18 раз быстрее, чем у предшественников, что свидетельствует о том, как стандартизация фреймворков GPU-ускорения упрощает развертывание.
Эффективность вывода через интеллектуальное планирование GPU и распределение ресурсов
Три новых продукта NVIDIA, ориентированные на вывод, напрямую решают проблему планирования GPU на различных уровнях системы. Spectrum-X Ethernet с интегрированными оптиками (CPO) оптимизирует коммутационную сеть между GPU. Внедрение оптики прямо в коммутирующий чип обеспечивает в 5 раз лучшую энергоэффективность и в 5 раз повышенную надежность работы приложений. Такой архитектурный выбор гарантирует, что решения по планированию GPU между GPU требуют минимальных затрат энергии.
Платформа NVIDIA Inference Context Memory Storage решает другую задачу планирования — управление контекстом. По мере перехода моделей ИИ к агентному рассуждению с окнами в миллионы токенов, хранение и извлечение контекста становятся узким местом. Этот новый уровень хранения, ускоряемый BlueField-4 DPU и интегрированный с инфраструктурой NVLink, позволяет GPU переносить вычисление кэша ключ-значение на выделенные узлы хранения. В результате достигается в 5 раз лучшая производительность вывода и в 5 раз меньшее энергопотребление — это достигается не только за счет более быстрых GPU, а за счет умного планирования вычислительных и хранилищных ресурсов.
Демонстрацией масштабируемости GPU-планирования служит SuperPOD на базе восьми систем Vera Rubin NVL72. Использование NVLink 6 для вертикального масштабирования и Spectrum-X Ethernet для горизонтального масштабирования позволяет снизить стоимость токенов для крупных моделей с экспертной смесью (MoE) до 1/10 предыдущего поколения. Это 10-кратное снижение стоимости отражает эффект сложных преимуществ оптимизированного планирования GPU: меньше потраченных вычислительных циклов, меньшие накладные расходы на перемещение данных и более эффективное использование ресурсов.
Многоуровневое хранилище и управление контекстом GPU: решение новой узкой части вывода
Переход от обучения к выводу кардинально меняет подход к планированию ресурсов GPU. Во время обучения использование GPU предсказуемо и стабильно. В процессе вывода, особенно при длинных контекстах, шаблоны запросов нерегулярны, и повторное использование контекста критично. Новая платформа хранения NVIDIA решает эту проблему, вводя иерархию памяти, оптимизированную для вывода: активные вычисления — память GPU HBM4, новый уровень хранения для управления кэшем ключ-значение и традиционное хранилище для постоянных данных.
Теперь планирование GPU должно балансировать вычислительные задачи и решения по планированию контекста. BlueField-4 DPU ускоряет перемещение контекста между уровнями, а интеллектуальное программное обеспечение планирует запуск ядер GPU с перекрытием с предзагрузкой контекста. Такое совместное решение — охватывающее вычисления GPU, ускорение DPU и сетевую эффективность — устраняет избыточные перерасчеты кэша KV, которые ранее мешали длинному выводу.
Открытые модели и оптимизированные для GPU фреймворки: создание физической экосистемы ИИ
Расширенная стратегия открытого исходного кода NVIDIA отражает понимание, что ускорение GPU дает ценность только в рамках развитой программной экосистемы. В 2025 году NVIDIA стала крупнейшим вкладчиком в открытые модели на Hugging Face, выпустив 650 моделей и 250 наборов данных. Эти модели все больше оптимизированы под архитектуру GPU NVIDIA — используют движки Transformer, применяют NVFP4 и соответствуют иерархиям памяти NVLink.
Новая платформа “Blueprints” позволяет разработчикам создавать много-модельные гибридные облачные системы ИИ. Эти системы умно планируют вывод задач между локальными GPU и облачными моделями на основе требований к задержкам и стоимости. Примером является Alpamayo — модель рассуждения с 10 миллиардами параметров для автономного вождения, которая работает эффективно на оптимизированных для вывода GPU, демонстрируя, как продуманное планирование GPU в сочетании с архитектурой модели позволяет реализовать сложное рассуждение на потребительском оборудовании.
Интеграция Siemens решений NVIDIA CUDA-X, моделей ИИ и Omniverse в промышленные цифровые двойники расширяет ускорение GPU в производство и операционные процессы. Этот партнерство показывает, как фреймворки планирования GPU становятся инфраструктурой для целых отраслей.
Стратегическое видение: от мощности GPU к полной системной ускоренной инфраструктуре
Последовательность анонсов NVIDIA раскрывает осознанную стратегию: каждый новый уровень продукта — от дизайна ядра GPU до сетевого переключения и архитектуры хранилищ — переосмыслен с учетом задач вывода. В результате создается система, в которой планирование GPU уже не является второстепенной задачей, а становится центральным принципом проектирования.
Наблюдение Jensen Huang о том, что «момент ChatGPT для физического ИИ настал», основано на этой инфраструктуре. Автономные транспортные средства с моделями Alpamayo требуют GPU, способных планировать вывод в реальном времени в условиях непредсказуемых ситуаций. Роботы, использующие фреймворки GR00T, требуют GPU, эффективно планирующие мультимодальное восприятие и рассуждение. Эти приложения возможны только потому, что NVIDIA переосмыслила ускорение GPU — от уровня кремния до программного стека.
Конкурентная защита NVIDIA строится на трех элементах: постоянном повышении эффективности планирования GPU — (5-кратное улучшение из поколения в поколение), открытии программного обеспечения для стимулирования внедрения — (650 моделей, 250 наборов данных), и усложнении интеграции аппаратного и программного обеспечения, что затрудняет копирование. Каждый анонс на CES 2026 — от совместных чипов Vera Rubin до платформы управления контекстом — углубляет возможности ускорения GPU и одновременно повышает планку для конкурентов.
По мере перехода индустрии ИИ от дефицита обучения к изобилию вывода, планирование GPU становится основным ограничением по стоимости и производительности. Стратегия полного стека NVIDIA гарантирует, что ее возможности аппаратного ускорения определят инфраструктурный слой для следующего десятилетия развития ИИ.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Архитектура NVIDIA с аппаратным ускорением GPU: как аппаратное планирование обеспечивает революцию в области инференса на CES 2026
На CES 2026 генеральный директор NVIDIA Jensen Huang выступил с масштабной презентацией, которая переосмыслила разговор об инфраструктуре ИИ, сосредоточив внимание на едином организующем принципе: интеллектуальном аппаратном ускорении и планировании GPU как основы экономики вывода. За 1,5 часа он представил восемь ключевых разработок, которые в совокупности отражают переход от обучения, ориентированного на ИИ, к системам, оптимизированным для вывода. Общая нить, связывающая все анонсы, — это то, как продвинутое планирование GPU — от распределения вычислений до распределения ресурсов — позволяет осуществлять экономически эффективное, высокопроизводительное развертывание ИИ в масштабах.
Аппаратное ускорение на системном уровне: революционный дизайн платформы Vera Rubin
Ключевым элементом стратегии NVIDIA является суперкомпьютер Vera Rubin AI — система, спроектированная совместно из шести чипов, которая переосмысливает работу GPU-ускорения на уровне стойки. Архитектура платформы — включающая Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU и Spectrum-X CPO — представляет собой отход от модульных конструкций в сторону глубоко интегрированного аппаратного ускорения.
GPU Rubin вводит движок Transformer и достигает до 50 PFLOPS производительности вывода на NVFP4, что в 5 раз превышает Blackwell. Более важно, что пропускная способность межсоединения NVLink 3.6TB/с и поддержка аппаратных тензорных операций позволяют добиться беспрецедентной эффективности планирования GPU. NVLink 6 Switch, работающий на скорости 400 Гбит/с на линию, координирует коммуникацию GPU с GPU с общей пропускной способностью 28,8 ТБ/с, что позволяет системе планировать вычисления между GPU с минимальной задержкой.
Интегрированный в систему Vera Rubin NVL72 в одной стойке, этот аппаратный ускоритель достигает 3,6 EFLOPS производительности вывода — в 5 раз лучше предыдущего поколения. В системе использовано 2 триллиона транзисторов и реализовано 100% жидкостное охлаждение, что позволяет плотное планирование GPU без тепловых ограничений. Время сборки снизилось до пяти минут, что в 18 раз быстрее, чем у предшественников, что свидетельствует о том, как стандартизация фреймворков GPU-ускорения упрощает развертывание.
Эффективность вывода через интеллектуальное планирование GPU и распределение ресурсов
Три новых продукта NVIDIA, ориентированные на вывод, напрямую решают проблему планирования GPU на различных уровнях системы. Spectrum-X Ethernet с интегрированными оптиками (CPO) оптимизирует коммутационную сеть между GPU. Внедрение оптики прямо в коммутирующий чип обеспечивает в 5 раз лучшую энергоэффективность и в 5 раз повышенную надежность работы приложений. Такой архитектурный выбор гарантирует, что решения по планированию GPU между GPU требуют минимальных затрат энергии.
Платформа NVIDIA Inference Context Memory Storage решает другую задачу планирования — управление контекстом. По мере перехода моделей ИИ к агентному рассуждению с окнами в миллионы токенов, хранение и извлечение контекста становятся узким местом. Этот новый уровень хранения, ускоряемый BlueField-4 DPU и интегрированный с инфраструктурой NVLink, позволяет GPU переносить вычисление кэша ключ-значение на выделенные узлы хранения. В результате достигается в 5 раз лучшая производительность вывода и в 5 раз меньшее энергопотребление — это достигается не только за счет более быстрых GPU, а за счет умного планирования вычислительных и хранилищных ресурсов.
Демонстрацией масштабируемости GPU-планирования служит SuperPOD на базе восьми систем Vera Rubin NVL72. Использование NVLink 6 для вертикального масштабирования и Spectrum-X Ethernet для горизонтального масштабирования позволяет снизить стоимость токенов для крупных моделей с экспертной смесью (MoE) до 1/10 предыдущего поколения. Это 10-кратное снижение стоимости отражает эффект сложных преимуществ оптимизированного планирования GPU: меньше потраченных вычислительных циклов, меньшие накладные расходы на перемещение данных и более эффективное использование ресурсов.
Многоуровневое хранилище и управление контекстом GPU: решение новой узкой части вывода
Переход от обучения к выводу кардинально меняет подход к планированию ресурсов GPU. Во время обучения использование GPU предсказуемо и стабильно. В процессе вывода, особенно при длинных контекстах, шаблоны запросов нерегулярны, и повторное использование контекста критично. Новая платформа хранения NVIDIA решает эту проблему, вводя иерархию памяти, оптимизированную для вывода: активные вычисления — память GPU HBM4, новый уровень хранения для управления кэшем ключ-значение и традиционное хранилище для постоянных данных.
Теперь планирование GPU должно балансировать вычислительные задачи и решения по планированию контекста. BlueField-4 DPU ускоряет перемещение контекста между уровнями, а интеллектуальное программное обеспечение планирует запуск ядер GPU с перекрытием с предзагрузкой контекста. Такое совместное решение — охватывающее вычисления GPU, ускорение DPU и сетевую эффективность — устраняет избыточные перерасчеты кэша KV, которые ранее мешали длинному выводу.
Открытые модели и оптимизированные для GPU фреймворки: создание физической экосистемы ИИ
Расширенная стратегия открытого исходного кода NVIDIA отражает понимание, что ускорение GPU дает ценность только в рамках развитой программной экосистемы. В 2025 году NVIDIA стала крупнейшим вкладчиком в открытые модели на Hugging Face, выпустив 650 моделей и 250 наборов данных. Эти модели все больше оптимизированы под архитектуру GPU NVIDIA — используют движки Transformer, применяют NVFP4 и соответствуют иерархиям памяти NVLink.
Новая платформа “Blueprints” позволяет разработчикам создавать много-модельные гибридные облачные системы ИИ. Эти системы умно планируют вывод задач между локальными GPU и облачными моделями на основе требований к задержкам и стоимости. Примером является Alpamayo — модель рассуждения с 10 миллиардами параметров для автономного вождения, которая работает эффективно на оптимизированных для вывода GPU, демонстрируя, как продуманное планирование GPU в сочетании с архитектурой модели позволяет реализовать сложное рассуждение на потребительском оборудовании.
Интеграция Siemens решений NVIDIA CUDA-X, моделей ИИ и Omniverse в промышленные цифровые двойники расширяет ускорение GPU в производство и операционные процессы. Этот партнерство показывает, как фреймворки планирования GPU становятся инфраструктурой для целых отраслей.
Стратегическое видение: от мощности GPU к полной системной ускоренной инфраструктуре
Последовательность анонсов NVIDIA раскрывает осознанную стратегию: каждый новый уровень продукта — от дизайна ядра GPU до сетевого переключения и архитектуры хранилищ — переосмыслен с учетом задач вывода. В результате создается система, в которой планирование GPU уже не является второстепенной задачей, а становится центральным принципом проектирования.
Наблюдение Jensen Huang о том, что «момент ChatGPT для физического ИИ настал», основано на этой инфраструктуре. Автономные транспортные средства с моделями Alpamayo требуют GPU, способных планировать вывод в реальном времени в условиях непредсказуемых ситуаций. Роботы, использующие фреймворки GR00T, требуют GPU, эффективно планирующие мультимодальное восприятие и рассуждение. Эти приложения возможны только потому, что NVIDIA переосмыслила ускорение GPU — от уровня кремния до программного стека.
Конкурентная защита NVIDIA строится на трех элементах: постоянном повышении эффективности планирования GPU — (5-кратное улучшение из поколения в поколение), открытии программного обеспечения для стимулирования внедрения — (650 моделей, 250 наборов данных), и усложнении интеграции аппаратного и программного обеспечения, что затрудняет копирование. Каждый анонс на CES 2026 — от совместных чипов Vera Rubin до платформы управления контекстом — углубляет возможности ускорения GPU и одновременно повышает планку для конкурентов.
По мере перехода индустрии ИИ от дефицита обучения к изобилию вывода, планирование GPU становится основным ограничением по стоимости и производительности. Стратегия полного стека NVIDIA гарантирует, что ее возможности аппаратного ускорения определят инфраструктурный слой для следующего десятилетия развития ИИ.