CES 2026で、NVIDIAのCEOジェンセン・フアンは、AIインフラストラクチャの議論を単一の組織原則に再構築する包括的な基調講演を行った:インテリジェントハードウェアの加速とGPUスケジューリングを推論経済の基盤とすることだ。1.5時間にわたり、彼は訓練中心のAIから推論最適化システムへのシフトを象徴する8つの主要な進展を発表した。すべての発表をつなぐ共通のテーマは、計算分配からリソース割り当てまでの高度なGPUスケジューリングが、コスト効率の良い高スループットなAI展開を大規模に可能にしている点である。
NVIDIAのGPUアクセラレーテッドアーキテクチャ:ハードウェアスケジューリングがCES 2026での推論革命を支える
CES 2026で、NVIDIAのCEOジェンセン・フアンは、AIインフラストラクチャの議論を単一の組織原則に再構築する包括的な基調講演を行った:インテリジェントハードウェアの加速とGPUスケジューリングを推論経済の基盤とすることだ。1.5時間にわたり、彼は訓練中心のAIから推論最適化システムへのシフトを象徴する8つの主要な進展を発表した。すべての発表をつなぐ共通のテーマは、計算分配からリソース割り当てまでの高度なGPUスケジューリングが、コスト効率の良い高スループットなAI展開を大規模に可能にしている点である。
システムレベルのGPU加速:ヴェラ・ルービン・プラットフォームの革新的設計
NVIDIAの戦略の中心は、ヴェラ・ルービンAIスーパーコンピュータであり、6チップを共同設計したシステムで、ラックレベルでのGPU加速の運用方法を再考したものである。プラットフォームのアーキテクチャは、Vera CPU、Rubin GPU、NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU、Spectrum-X CPOから構成されており、モジュール設計から深く統合されたハードウェア加速への脱却を示している。
Rubin GPUはTransformerエンジンを導入し、最大50 PFLOPSのNVFP4推論性能を達成、Blackwellより5倍の性能向上を実現している。さらに重要なのは、GPUの3.6TB/sのNVLinkインターコネクト帯域幅とハードウェア加速されたテンソル演算のサポートにより、前例のないGPUスケジューリング効率を実現している点だ。NVLink 6 Switchはレーンあたり400Gbpsで動作し、GPU間通信を28.8TB/sの総帯域幅で調整し、システムが最小限のレイテンシオーバーヘッドで計算をGPU間にスケジューリングできるようにしている。
単一ラックのヴェラ・ルービンNVL72システムに統合されたこのハードウェア加速は、推論性能3.6 EFLOPSを達成し、前世代の5倍の性能向上を示す。システムには2兆個のトランジスタが搭載され、100%液冷を採用しているため、熱的制約なしに密度の高いGPUスケジューリングが可能となった。組み立て時間は5分に短縮され、前世代の18倍の速さとなり、標準化されたGPU加速フレームワークが導入を容易にしていることを示している。
インテリジェントGPUスケジューリングとリソース割り当てによる推論効率の向上
NVIDIAの新しい推論製品3つは、異なるシステム層でのGPUスケジューリングの課題に直接対応している。Spectrum-X Ethernetとパッケージされた光学素子(CPO)は、GPU間のスイッチングファブリックを最適化する。光学素子をスイッチングシリコンに直接埋め込むことで、CPOはエネルギー効率を5倍向上させ、アプリケーションの稼働時間も5倍改善している。この設計選択により、GPU間のスケジューリング決定にかかる電力オーバーヘッドが最小限に抑えられる。
NVIDIAの推論コンテキストメモリストレージプラットフォームは、異なるスケジューリング問題に取り組む:コンテキスト管理だ。エージェント的推論と数百万トークンのウィンドウに移行するAIモデルにとって、コンテキストの保存と取得が主要なボトルネックとなる。この新しいストレージ層は、BlueField-4 DPUとNVLinkインフラにより加速され、GPUがキー・バリューキャッシュの計算を専用ストレージノードにオフロードできるようにしている。その結果、推論性能は5倍向上し、エネルギー消費も5倍削減されている。これは、より高速なGPUだけでなく、計算とストレージリソースのインテリジェントなスケジューリングによって実現されている。
NVIDIA DGX SuperPODは、8つのヴェラ・ルービンNVL72システムを基盤とし、GPUスケジューリングのスケールを示している。NVLink 6を用いた垂直スケーリングとSpectrum-X Ethernetによる水平スケーリングにより、大規模なエキスパート混合モデル(MoE)のトークンコストを前世代の1/10に削減している。この10倍のコスト削減は、最適化されたGPUスケジューリングの複合的な効果を反映しており、計算サイクルの無駄を減らし、データ移動のオーバーヘッドを抑え、リソースの利用効率を高めている。
マルチティアストレージとGPUコンテキスト管理:新たな推論ボトルネックの解決
訓練から推論への移行は、GPUリソースのスケジューリング方法を根本的に変える。訓練中はGPUの利用率は予測可能で一定だが、長いコンテキスト推論ではリクエストパターンが不規則になり、コンテキストの再利用が重要となる。NVIDIAの新しいストレージプラットフォームは、推論に最適化されたメモリ階層を導入している:アクティブ計算用のGPU HBM4メモリ、新しいコンテキストメモリ層によるキー・バリューキャッシュ管理、そして永続データ用の従来型ストレージだ。
GPUのスケジューリングは、計算タスクとコンテキストスケジューリングの決定をバランスさせる必要がある。BlueField-4 DPUはこれらの階層間のコンテキスト移動を加速し、インテリジェントなソフトウェアはGPUカーネルの起動をコンテキストのプリフェッチと重ね合わせてスケジューリングする。この協調設計は、GPU計算、DPUの加速、ネットワーク効率を横断し、長いコンテキスト推論に以前あったKVキャッシュの再計算の無駄を排除している。
オープンモデルとGPU最適化フレームワーク:物理AIエコシステムの構築
NVIDIAの拡大するオープンソース戦略は、GPU加速が価値を発揮するのは活気あるソフトウェアエコシステム内であるとの認識を反映している。2025年、NVIDIAはHugging Faceのオープンソースモデルの最大貢献者となり、650モデルと250データセットを公開した。これらのモデルは、NVIDIAのGPUスケジューリングアーキテクチャに最適化されており、Transformerエンジンを活用し、NVFP4精度を利用し、NVLinkメモリ階層に沿って設計されている。
新しい「Blueprints」フレームワークは、開発者がマルチモデルのハイブリッドクラウドAIシステムを構築できるようにしている。これらのシステムは、レイテンシとコストに基づき、ローカルGPUとクラウドの最先端モデル間で推論タスクをインテリジェントにスケジューリングする。自律運転用の10億パラメータ推論モデルAlpamayoのリリースは、このアプローチの一例だ。Alpamayoは推論最適化されたGPU上で効率的に動作し、モデルアーキテクチャとペアリングされた思慮深いGPUスケジューリングによって、コンシューマーグレードのハードウェア上で高度な推論を可能にしている。
シーメンスは、NVIDIA CUDA-X、AIモデル、Omniverseを産業用デジタルツインに統合し、GPU加速を製造と運用に拡大している。このパートナーシップは、GPUスケジューリングフレームワークが産業全体のインフラとなることを示している。
戦略的ビジョン:GPU計算能力から完全なシステム加速へ
NVIDIAの発表シーケンスは、意図的な戦略を明らかにしている:GPUコア設計からネットワークスイッチング、ストレージアーキテクチャに至る各新製品層は、推論ワークロードに再考されてきた。その結果、GPUスケジューリングはもはや二次的な関心事ではなく、中心的な設計原則となっている。
ジェンセン・フアンの「物理AIのためのChatGPT瞬間が到来した」という見解は、このインフラ基盤に根ざしている。Alpamayoモデルを搭載した自動運転車は、予測不能な状況下でリアルタイム推論をスケジューリングできるGPUを必要とする。GR00Tフレームワークを用いるロボットは、多モーダル認識と推論を効率的にスケジューリングするGPUを求めている。これらの物理AIアプリケーションは、NVIDIAがGPU加速をシリコンレベルからソフトウェアスタックまで再構築したからこそ実現可能となっている。
NVIDIAが築く競争的堀は、3つの要素からなる:世代を重ねるごとに5倍のGPUスケジューリング効率の向上(5x改善)、ソフトウェアのオープン化による採用促進(650モデル、250データセット)、そしてハードウェアとソフトウェアの統合を模倣しにくくすることだ。CES 2026でのヴェラ・ルービンの共同設計チップからコンテキストメモリプラットフォームまでの各発表は、GPU加速能力を深めるとともに、競合アーキテクチャの模倣を難しくしている。
AI業界が訓練の希少性から推論の豊富さへと移行する中、GPUスケジューリングはコストと性能の主な制約となる。NVIDIAのフルスタックアプローチは、次の10年にわたるAIインフラの基盤となるハードウェア加速能力を確実にする。