Arsitektur Dipercepat GPU NVIDIA: Bagaimana Penjadwalan Perangkat Keras Menggerakkan Revolusi Inferensi di CES 2026

Pada CES 2026, CEO NVIDIA Jensen Huang menyampaikan keynote yang luas yang membingkai ulang percakapan tentang infrastruktur AI seputar satu prinsip pengorganisasian: percepatan perangkat keras cerdas dan penjadwalan GPU sebagai fondasi ekonomi inferensi. Dalam waktu 1,5 jam, ia mengungkapkan delapan perkembangan utama yang secara kolektif mewakili pergeseran dari AI yang berfokus pada pelatihan ke sistem yang dioptimalkan untuk inferensi. Benang merah yang menghubungkan semua pengumuman adalah bagaimana penjadwalan GPU yang canggih—dari distribusi komputasi hingga alokasi sumber daya—memungkinkan penerapan AI berkecepatan tinggi dan biaya efisien secara skala besar.

Percepatan GPU Tingkat Sistem: Desain Revolusioner Platform Vera Rubin

Inti dari strategi NVIDIA adalah superkomputer AI Vera Rubin, sebuah sistem yang dirancang bersama enam chip yang membayangkan ulang bagaimana percepatan GPU beroperasi di tingkat rak. Arsitektur platform ini—yang terdiri dari Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU, dan Spectrum-X CPO—menandai pergeseran dari desain modular menuju percepatan perangkat keras yang terintegrasi secara mendalam.

Rubin GPU memperkenalkan mesin Transformer dan mencapai hingga 50 PFLOPS performa inferensi NVFP4, lonjakan 5x dibandingkan Blackwell. Lebih penting lagi, bandwidth interkoneksi NVLink 3,6TB/s dan dukungan untuk operasi tensor yang dipercepat perangkat keras memungkinkan efisiensi penjadwalan GPU yang belum pernah terjadi sebelumnya. NVLink 6 Switch, yang beroperasi pada 400Gbps per jalur, mengoordinasikan komunikasi GPU-ke-GPU dengan bandwidth agregat 28,8TB/s, memungkinkan sistem menjadwalkan komputasi di seluruh GPU dengan overhead latensi minimal.

Terintegrasi dalam satu sistem Vera Rubin NVL72 di satu rak, percepatan perangkat keras ini mencapai 3,6 EFLOPS performa inferensi—peningkatan 5x dibandingkan generasi sebelumnya. Sistem ini mengandung 2 triliun transistor dan mengadopsi pendinginan cair 100%, memungkinkan penjadwalan GPU yang padat tanpa batasan termal. Waktu perakitan turun menjadi lima menit, 18 kali lebih cepat dari generasi sebelumnya, mencerminkan bagaimana kerangka kerja percepatan GPU yang distandarisasi menyederhanakan penerapan.

Efisiensi Inferensi Melalui Penjadwalan GPU Cerdas dan Alokasi Sumber Daya

Tiga produk inferensi baru NVIDIA secara langsung mengatasi tantangan penjadwalan GPU di berbagai lapisan sistem. Spectrum-X Ethernet yang dikemas bersama optik (CPO) mengoptimalkan fabric switching antar GPU. Dengan menyematkan optik langsung ke dalam silikon switching, CPO mencapai efisiensi energi 5x lebih baik dan waktu aktif aplikasi 5x lebih tinggi. Pilihan arsitektur ini memastikan bahwa keputusan penjadwalan GPU-ke-GPU memakan daya minimal.

Platform Penyimpanan Memori Inferensi Context NVIDIA mengatasi masalah penjadwalan yang berbeda: manajemen konteks. Saat model AI beralih ke penalaran agenik dengan jendela multi-juta token, penyimpanan dan pengambilan konteks menjadi hambatan utama. Tingkatan penyimpanan baru ini, yang dipercepat oleh BlueField-4 DPU dan terintegrasi dengan infrastruktur NVLink, memungkinkan GPU mengalihkan komputasi cache kunci-nilai ke node penyimpanan khusus. Hasilnya adalah performa inferensi 5x lebih baik dan konsumsi energi 5x lebih rendah—dicapai tidak hanya melalui GPU yang lebih cepat, tetapi melalui penjadwalan cerdas sumber daya komputasi dan penyimpanan.

SuperPOD DGX NVIDIA, yang dibangun di atas delapan sistem Vera Rubin NVL72, menunjukkan bagaimana penjadwalan GPU dapat diskalakan di seluruh deployment tingkat pod. Dengan NVLink 6 untuk penskalaan vertikal dan Spectrum-X Ethernet untuk penskalaan horizontal, SuperPOD mengurangi biaya token untuk model (MoE) campuran besar menjadi 1/10 dari generasi sebelumnya. Pengurangan biaya 10x ini mencerminkan hasil kumulatif dari penjadwalan GPU yang dioptimalkan: siklus komputasi yang lebih sedikit terbuang, overhead perpindahan data yang lebih rendah, dan pemanfaatan sumber daya yang lebih baik.

Penyimpanan Multi-Tier dan Manajemen Konteks GPU: Mengatasi Hambatan Baru Inferensi

Peralihan dari pelatihan ke inferensi secara fundamental mengubah cara sumber daya GPU harus dijadwalkan. Selama pelatihan, utilisasi GPU dapat diprediksi dan stabil. Saat inferensi, terutama inferensi konteks panjang, pola permintaan tidak teratur, dan penggunaan kembali konteks sangat penting. Platform penyimpanan baru NVIDIA mengatasi hal ini dengan memperkenalkan hierarki memori yang dioptimalkan untuk inferensi: memori GPU HBM4 untuk komputasi aktif, tingkatan memori konteks baru untuk manajemen cache kunci-nilai, dan penyimpanan tradisional untuk data permanen.

Penjadwalan GPU kini harus menyeimbangkan tugas komputasi dengan keputusan penjadwalan konteks. BlueField-4 DPU mempercepat perpindahan konteks antar tingkatan ini, sementara perangkat lunak cerdas menjadwalkan peluncuran kernel GPU untuk tumpang tindih dengan pra-pengambilan konteks. Desain kolaboratif ini—yang mencakup komputasi GPU, percepatan DPU, dan efisiensi jaringan—menghilangkan perhitungan ulang cache KV yang redundan yang sebelumnya mengganggu inferensi konteks panjang.

Model Terbuka dan Kerangka Kerja yang Dioptimalkan GPU: Membangun Ekosistem AI Fisik

Strategi sumber terbuka NVIDIA yang diperluas mencerminkan pengakuan bahwa percepatan GPU hanya memberikan nilai dalam ekosistem perangkat lunak yang berkembang. Pada 2025, NVIDIA menjadi kontributor terbesar untuk model sumber terbuka di Hugging Face, merilis 650 model dan 250 dataset. Model-model ini semakin dioptimalkan untuk arsitektur penjadwalan GPU NVIDIA—mereka memanfaatkan mesin Transformer, menggunakan NVFP4 precision, dan selaras dengan hierarki memori NVLink.

Kerangka kerja “Blueprints” yang baru memungkinkan pengembang menyusun sistem AI hibrida multi-model dan cloud-hybrid secara cerdas. Sistem ini menjadwalkan inferensi secara cerdas di seluruh GPU lokal dan model frontier berbasis cloud berdasarkan latensi dan biaya. Rilis Alpamayo, model penalaran 10 miliar parameter untuk mengemudi otonom, menjadi contoh pendekatan ini. Alpamayo berjalan efisien di GPU yang dioptimalkan untuk inferensi, menunjukkan bagaimana penjadwalan GPU yang cermat—dipadukan dengan arsitektur model—memungkinkan penalaran canggih pada perangkat keras kelas konsumen.

Integrasi Siemens dari NVIDIA CUDA-X, model AI, dan Omniverse ke dalam digital twins industri memperluas percepatan GPU ke manufaktur dan operasi. Kemitraan ini menggambarkan bagaimana kerangka kerja penjadwalan GPU menjadi infrastruktur untuk seluruh industri.

Visi Strategis: Dari Kekuatan Komputasi GPU Hingga Percepatan Sistem Lengkap

Serangkaian pengumuman NVIDIA mengungkapkan strategi yang disengaja: setiap lapisan produk baru—dari desain inti GPU melalui switching jaringan hingga arsitektur penyimpanan—telah dipertimbangkan ulang untuk beban kerja inferensi. Hasilnya adalah sistem di mana penjadwalan GPU bukan lagi perhatian sekunder tetapi prinsip desain utama.

Pengamatan Jensen Huang bahwa “momen ChatGPT untuk AI fisik telah tiba” didasarkan pada fondasi infrastruktur ini. Kendaraan otonom yang dilengkapi model Alpamayo membutuhkan GPU yang dapat menjadwalkan inferensi waktu nyata di bawah kondisi yang tidak terduga. Robot yang beroperasi melalui kerangka kerja GR00T menuntut GPU yang secara efisien menjadwalkan persepsi multi-modal dan penalaran. Aplikasi AI fisik ini hanya mungkin karena NVIDIA telah membayangkan ulang percepatan GPU dari tingkat silikon hingga tumpukan perangkat lunak.

Penghalang kompetitif yang sedang dibangun NVIDIA menggabungkan tiga elemen: kemajuan berkelanjutan dalam efisiensi penjadwalan GPU (5x peningkatan dari generasi ke generasi), membuka perangkat lunak untuk mendorong adopsi (650 model, 250 dataset), dan membuat integrasi perangkat keras-perangkat lunak semakin sulit untuk ditiru. Setiap pengumuman di CES 2026—dari chip yang dirancang bersama Vera Rubin hingga platform memori konteks—memperdalam kemampuan percepatan GPU sekaligus meningkatkan standar untuk arsitektur pesaing.

Seiring industri AI beralih dari kelangkaan pelatihan ke kelimpahan inferensi, penjadwalan GPU muncul sebagai kendala utama biaya dan kinerja. Pendekatan lengkap NVIDIA memastikan bahwa kemampuan percepatan perangkat kerasnya akan mendefinisikan lapisan infrastruktur untuk pengembangan infrastruktur AI selama dekade berikutnya.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan

Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)