Tại CES 2026, CEO NVIDIA Jensen Huang đã trình bày một bài phát biểu toàn diện định hình lại cuộc trò chuyện về hạ tầng AI xoay quanh một nguyên tắc tổ chức duy nhất: tăng tốc phần cứng thông minh và lập lịch GPU như nền tảng cho nền kinh tế suy luận. Trong suốt 1,5 giờ, ông đã giới thiệu tám phát triển lớn đại diện cho sự chuyển đổi từ AI tập trung vào huấn luyện sang hệ thống tối ưu hóa cho suy luận. Đoạn chủ đề liên kết tất cả các thông báo là cách lập lịch GPU tinh vi — từ phân phối tính toán đến phân bổ tài nguyên — giúp triển khai AI hiệu quả về chi phí, qua đó đạt hiệu suất cao trên quy mô lớn.
Tăng tốc GPU cấp hệ thống: Thiết kế đột phá của Nền tảng Vera Rubin
Trung tâm chiến lược của NVIDIA là siêu máy tính AI Vera Rubin, một hệ thống hợp tác thiết kế gồm sáu chip, tái tưởng tượng cách hoạt động của tăng tốc GPU ở cấp rack. Kiến trúc của nền tảng — gồm Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU, và Spectrum-X CPO — thể hiện sự thoát khỏi các thiết kế mô-đun để hướng tới phần cứng tăng tốc tích hợp sâu.
Rubin GPU giới thiệu động cơ Transformer và đạt hiệu suất suy luận lên tới 50 PFLOPS NVFP4, gấp 5 lần so với Blackwell. Quan trọng hơn, băng thông kết nối NVLink 3.6TB/s và hỗ trợ các phép toán tensor tăng tốc phần cứng giúp tăng hiệu quả lập lịch GPU chưa từng có. NVLink 6 Switch, hoạt động ở tốc độ 400Gbps mỗi làn, điều phối giao tiếp GPU-GPU với băng thông tổng cộng 28.8TB/s, cho phép hệ thống lập lịch tính toán trên các GPU với độ trễ tối thiểu.
Kết hợp trong một hệ thống Vera Rubin NVL72 trong một rack duy nhất, tăng tốc phần cứng này đạt 3.6 EFLOPS hiệu suất suy luận — gấp 5 lần so với thế hệ trước. Hệ thống chứa 2 nghìn tỷ transistor và tích hợp làm mát bằng chất lỏng 100%, cho phép lập lịch GPU dày đặc mà không bị giới hạn nhiệt. Thời gian lắp ráp giảm xuống còn năm phút, nhanh hơn 18 lần so với các thế hệ trước, phản ánh cách các khung tăng tốc GPU tiêu chuẩn hóa giúp đơn giản hóa triển khai.
Hiệu quả suy luận qua Lập lịch GPU Thông minh và Phân bổ Tài nguyên
Ba sản phẩm suy luận mới của NVIDIA trực tiếp giải quyết thách thức lập lịch GPU ở các lớp hệ thống khác nhau. Spectrum-X Ethernet tích hợp quang học (CPO) tối ưu hóa mạng chuyển mạch giữa các GPU. Bằng cách nhúng quang học trực tiếp vào silicon chuyển mạch, CPO đạt hiệu quả năng lượng gấp 5 lần và thời gian hoạt động của ứng dụng gấp 5 lần. Lựa chọn kiến trúc này đảm bảo các quyết định lập lịch GPU-GPU tiêu thụ ít năng lượng hơn.
Nền tảng Bộ nhớ Ngữ cảnh Suy luận NVIDIA Addressing (Inference Context Memory Storage Platform) giải quyết một vấn đề lập lịch khác: quản lý ngữ cảnh. Khi các mô hình AI chuyển sang suy luận có khả năng lý luận đại lý với cửa sổ hàng triệu token, việc lưu trữ và truy xuất ngữ cảnh trở thành nút thắt chính. Tầng lưu trữ mới này, được tăng tốc bởi BlueField-4 DPU và tích hợp với hạ tầng NVLink, cho phép GPU chuyển tải tính toán cache key-value sang các nút lưu trữ chuyên dụng. Kết quả là hiệu suất suy luận tăng gấp 5 lần và tiêu thụ năng lượng giảm 5 lần — đạt được không chỉ nhờ GPU nhanh hơn mà còn nhờ lập lịch thông minh cho tính toán và tài nguyên lưu trữ.
SuperPOD DGX của NVIDIA, dựa trên tám hệ thống Vera Rubin NVL72, thể hiện cách lập lịch GPU mở rộng trên quy mô pod. Bằng cách sử dụng NVLink 6 để mở rộng theo chiều dọc và Spectrum-X Ethernet để mở rộng theo chiều ngang, SuperPOD giảm chi phí token cho các mô hình (MoE) phức hợp lớn xuống còn 1/10 so với thế hệ trước. Giảm 10 lần chi phí này phản ánh lợi ích cộng hưởng của việc tối ưu hóa lập lịch GPU: ít chu kỳ tính toán bị lãng phí hơn, giảm chi phí di chuyển dữ liệu, và sử dụng tài nguyên hiệu quả hơn.
Lưu trữ đa tầng và Quản lý Ngữ cảnh GPU: Giải quyết nút thắt mới của suy luận
Chuyển đổi từ huấn luyện sang suy luận về cơ bản thay đổi cách lập lịch tài nguyên GPU. Trong huấn luyện, mức độ sử dụng GPU dự đoán được và ổn định. Trong suy luận, đặc biệt là suy luận ngữ cảnh dài, các mẫu yêu cầu không đều và tái sử dụng ngữ cảnh là rất quan trọng. Nền tảng lưu trữ mới của NVIDIA giải quyết điều này bằng cách giới thiệu hệ thống bộ nhớ tối ưu cho suy luận: bộ nhớ HBM4 của GPU cho tính toán hoạt động, tầng bộ nhớ ngữ cảnh mới để quản lý cache key-value, và lưu trữ truyền thống cho dữ liệu lâu dài.
Lập lịch GPU giờ đây phải cân bằng giữa các tác vụ tính toán và quyết định lập lịch ngữ cảnh. BlueField-4 DPU tăng tốc di chuyển ngữ cảnh giữa các tầng này, trong khi phần mềm thông minh lập lịch kernel GPU để chồng chéo với việc prefetch ngữ cảnh. Thiết kế hợp tác này — bao gồm tính toán GPU, tăng tốc DPU, và hiệu quả mạng — loại bỏ các tính toán cache KV dư thừa từng gây ra vấn đề trong suy luận ngữ cảnh dài trước đây.
Các Mô hình Mở và Khung công tác Tối ưu GPU: Xây dựng Hệ sinh thái AI Vật lý
Chiến lược mã nguồn mở mở rộng của NVIDIA phản ánh nhận thức rằng tăng tốc GPU chỉ mang lại giá trị trong một hệ sinh thái phần mềm phát triển mạnh. Năm 2025, NVIDIA trở thành nhà đóng góp lớn nhất cho các mô hình mã nguồn mở trên Hugging Face, phát hành 650 mô hình và 250 bộ dữ liệu. Các mô hình này ngày càng tối ưu cho kiến trúc lập lịch GPU của NVIDIA — khai thác động cơ Transformer, sử dụng độ chính xác NVFP4, và phù hợp với hệ thống bộ nhớ NVLink.
Khung “Blueprints” mới cho phép các nhà phát triển phối hợp các hệ thống AI đa mô hình, lai hybrid-cloud. Các hệ thống này lập lịch suy luận thông minh giữa GPU cục bộ và các mô hình frontier dựa trên độ trễ và chi phí. Việc ra mắt Alpamayo, một mô hình lý luận 10 tỷ tham số cho lái xe tự hành, thể hiện rõ cách tiếp cận này. Alpamayo hoạt động hiệu quả trên các GPU tối ưu cho suy luận, chứng minh cách lập lịch GPU cẩn thận — kết hợp với kiến trúc mô hình — cho phép lý luận phức tạp trên phần cứng tiêu chuẩn.
Viện Siemens tích hợp NVIDIA CUDA-X, các mô hình AI, và Omniverse vào các bản sao kỹ thuật số công nghiệp mở rộng GPU vào sản xuất và vận hành. Quan hệ đối tác này minh họa cách các khung lập lịch GPU trở thành hạ tầng cho toàn ngành.
Tầm nhìn Chiến lược: Từ Công suất Tính toán GPU đến Tăng tốc Hệ thống Hoàn chỉnh
Chuỗi thông báo của NVIDIA tiết lộ một chiến lược có chủ đích: từng lớp sản phẩm mới — từ thiết kế lõi GPU, chuyển mạch mạng, đến kiến trúc lưu trữ — đều được xem xét lại cho các tác vụ suy luận. Kết quả là một hệ thống trong đó lập lịch GPU không còn là vấn đề phụ mà trở thành nguyên tắc thiết kế trung tâm.
Nhận định của Jensen Huang rằng “thời điểm ChatGPT cho AI vật lý đã đến” dựa trên nền tảng hạ tầng này. Các phương tiện tự hành trang bị các mô hình Alpamayo cần GPU có thể lập lịch suy luận thời gian thực dưới điều kiện không thể đoán trước. Robot vận hành theo khung GR00T đòi hỏi GPU lập lịch hiệu quả các cảm biến đa dạng và lý luận. Các ứng dụng AI vật lý này chỉ có thể thực hiện được vì NVIDIA đã tái tưởng tượng tăng tốc GPU từ cấp silicon đến phần mềm.
Hàng rào cạnh tranh mà NVIDIA xây dựng kết hợp ba yếu tố: liên tục nâng cao hiệu quả lập lịch GPU (5x cải tiến qua từng thế hệ), mở phần mềm để thúc đẩy sự chấp nhận (650 mô hình, 250 bộ dữ liệu), và làm cho việc tích hợp phần cứng-phần mềm ngày càng khó sao chép. Mỗi thông báo tại CES 2026 — từ chip hợp tác của Vera Rubin đến nền tảng bộ nhớ ngữ cảnh — đều mở rộng khả năng tăng tốc GPU đồng thời nâng cao tiêu chuẩn cho các kiến trúc cạnh tranh.
Khi ngành AI chuyển từ khan hiếm huấn luyện sang dư thừa suy luận, lập lịch GPU nổi lên như hạn chế chính về chi phí và hiệu suất. Phương pháp toàn diện của NVIDIA đảm bảo rằng khả năng tăng tốc phần cứng của họ sẽ định hình lớp hạ tầng cho thập kỷ tiếp theo của phát triển hạ tầng AI.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Kiến trúc tăng tốc GPU của NVIDIA: Cách lập lịch phần cứng thúc đẩy cuộc cách mạng suy luận tại CES 2026
Tại CES 2026, CEO NVIDIA Jensen Huang đã trình bày một bài phát biểu toàn diện định hình lại cuộc trò chuyện về hạ tầng AI xoay quanh một nguyên tắc tổ chức duy nhất: tăng tốc phần cứng thông minh và lập lịch GPU như nền tảng cho nền kinh tế suy luận. Trong suốt 1,5 giờ, ông đã giới thiệu tám phát triển lớn đại diện cho sự chuyển đổi từ AI tập trung vào huấn luyện sang hệ thống tối ưu hóa cho suy luận. Đoạn chủ đề liên kết tất cả các thông báo là cách lập lịch GPU tinh vi — từ phân phối tính toán đến phân bổ tài nguyên — giúp triển khai AI hiệu quả về chi phí, qua đó đạt hiệu suất cao trên quy mô lớn.
Tăng tốc GPU cấp hệ thống: Thiết kế đột phá của Nền tảng Vera Rubin
Trung tâm chiến lược của NVIDIA là siêu máy tính AI Vera Rubin, một hệ thống hợp tác thiết kế gồm sáu chip, tái tưởng tượng cách hoạt động của tăng tốc GPU ở cấp rack. Kiến trúc của nền tảng — gồm Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU, và Spectrum-X CPO — thể hiện sự thoát khỏi các thiết kế mô-đun để hướng tới phần cứng tăng tốc tích hợp sâu.
Rubin GPU giới thiệu động cơ Transformer và đạt hiệu suất suy luận lên tới 50 PFLOPS NVFP4, gấp 5 lần so với Blackwell. Quan trọng hơn, băng thông kết nối NVLink 3.6TB/s và hỗ trợ các phép toán tensor tăng tốc phần cứng giúp tăng hiệu quả lập lịch GPU chưa từng có. NVLink 6 Switch, hoạt động ở tốc độ 400Gbps mỗi làn, điều phối giao tiếp GPU-GPU với băng thông tổng cộng 28.8TB/s, cho phép hệ thống lập lịch tính toán trên các GPU với độ trễ tối thiểu.
Kết hợp trong một hệ thống Vera Rubin NVL72 trong một rack duy nhất, tăng tốc phần cứng này đạt 3.6 EFLOPS hiệu suất suy luận — gấp 5 lần so với thế hệ trước. Hệ thống chứa 2 nghìn tỷ transistor và tích hợp làm mát bằng chất lỏng 100%, cho phép lập lịch GPU dày đặc mà không bị giới hạn nhiệt. Thời gian lắp ráp giảm xuống còn năm phút, nhanh hơn 18 lần so với các thế hệ trước, phản ánh cách các khung tăng tốc GPU tiêu chuẩn hóa giúp đơn giản hóa triển khai.
Hiệu quả suy luận qua Lập lịch GPU Thông minh và Phân bổ Tài nguyên
Ba sản phẩm suy luận mới của NVIDIA trực tiếp giải quyết thách thức lập lịch GPU ở các lớp hệ thống khác nhau. Spectrum-X Ethernet tích hợp quang học (CPO) tối ưu hóa mạng chuyển mạch giữa các GPU. Bằng cách nhúng quang học trực tiếp vào silicon chuyển mạch, CPO đạt hiệu quả năng lượng gấp 5 lần và thời gian hoạt động của ứng dụng gấp 5 lần. Lựa chọn kiến trúc này đảm bảo các quyết định lập lịch GPU-GPU tiêu thụ ít năng lượng hơn.
Nền tảng Bộ nhớ Ngữ cảnh Suy luận NVIDIA Addressing (Inference Context Memory Storage Platform) giải quyết một vấn đề lập lịch khác: quản lý ngữ cảnh. Khi các mô hình AI chuyển sang suy luận có khả năng lý luận đại lý với cửa sổ hàng triệu token, việc lưu trữ và truy xuất ngữ cảnh trở thành nút thắt chính. Tầng lưu trữ mới này, được tăng tốc bởi BlueField-4 DPU và tích hợp với hạ tầng NVLink, cho phép GPU chuyển tải tính toán cache key-value sang các nút lưu trữ chuyên dụng. Kết quả là hiệu suất suy luận tăng gấp 5 lần và tiêu thụ năng lượng giảm 5 lần — đạt được không chỉ nhờ GPU nhanh hơn mà còn nhờ lập lịch thông minh cho tính toán và tài nguyên lưu trữ.
SuperPOD DGX của NVIDIA, dựa trên tám hệ thống Vera Rubin NVL72, thể hiện cách lập lịch GPU mở rộng trên quy mô pod. Bằng cách sử dụng NVLink 6 để mở rộng theo chiều dọc và Spectrum-X Ethernet để mở rộng theo chiều ngang, SuperPOD giảm chi phí token cho các mô hình (MoE) phức hợp lớn xuống còn 1/10 so với thế hệ trước. Giảm 10 lần chi phí này phản ánh lợi ích cộng hưởng của việc tối ưu hóa lập lịch GPU: ít chu kỳ tính toán bị lãng phí hơn, giảm chi phí di chuyển dữ liệu, và sử dụng tài nguyên hiệu quả hơn.
Lưu trữ đa tầng và Quản lý Ngữ cảnh GPU: Giải quyết nút thắt mới của suy luận
Chuyển đổi từ huấn luyện sang suy luận về cơ bản thay đổi cách lập lịch tài nguyên GPU. Trong huấn luyện, mức độ sử dụng GPU dự đoán được và ổn định. Trong suy luận, đặc biệt là suy luận ngữ cảnh dài, các mẫu yêu cầu không đều và tái sử dụng ngữ cảnh là rất quan trọng. Nền tảng lưu trữ mới của NVIDIA giải quyết điều này bằng cách giới thiệu hệ thống bộ nhớ tối ưu cho suy luận: bộ nhớ HBM4 của GPU cho tính toán hoạt động, tầng bộ nhớ ngữ cảnh mới để quản lý cache key-value, và lưu trữ truyền thống cho dữ liệu lâu dài.
Lập lịch GPU giờ đây phải cân bằng giữa các tác vụ tính toán và quyết định lập lịch ngữ cảnh. BlueField-4 DPU tăng tốc di chuyển ngữ cảnh giữa các tầng này, trong khi phần mềm thông minh lập lịch kernel GPU để chồng chéo với việc prefetch ngữ cảnh. Thiết kế hợp tác này — bao gồm tính toán GPU, tăng tốc DPU, và hiệu quả mạng — loại bỏ các tính toán cache KV dư thừa từng gây ra vấn đề trong suy luận ngữ cảnh dài trước đây.
Các Mô hình Mở và Khung công tác Tối ưu GPU: Xây dựng Hệ sinh thái AI Vật lý
Chiến lược mã nguồn mở mở rộng của NVIDIA phản ánh nhận thức rằng tăng tốc GPU chỉ mang lại giá trị trong một hệ sinh thái phần mềm phát triển mạnh. Năm 2025, NVIDIA trở thành nhà đóng góp lớn nhất cho các mô hình mã nguồn mở trên Hugging Face, phát hành 650 mô hình và 250 bộ dữ liệu. Các mô hình này ngày càng tối ưu cho kiến trúc lập lịch GPU của NVIDIA — khai thác động cơ Transformer, sử dụng độ chính xác NVFP4, và phù hợp với hệ thống bộ nhớ NVLink.
Khung “Blueprints” mới cho phép các nhà phát triển phối hợp các hệ thống AI đa mô hình, lai hybrid-cloud. Các hệ thống này lập lịch suy luận thông minh giữa GPU cục bộ và các mô hình frontier dựa trên độ trễ và chi phí. Việc ra mắt Alpamayo, một mô hình lý luận 10 tỷ tham số cho lái xe tự hành, thể hiện rõ cách tiếp cận này. Alpamayo hoạt động hiệu quả trên các GPU tối ưu cho suy luận, chứng minh cách lập lịch GPU cẩn thận — kết hợp với kiến trúc mô hình — cho phép lý luận phức tạp trên phần cứng tiêu chuẩn.
Viện Siemens tích hợp NVIDIA CUDA-X, các mô hình AI, và Omniverse vào các bản sao kỹ thuật số công nghiệp mở rộng GPU vào sản xuất và vận hành. Quan hệ đối tác này minh họa cách các khung lập lịch GPU trở thành hạ tầng cho toàn ngành.
Tầm nhìn Chiến lược: Từ Công suất Tính toán GPU đến Tăng tốc Hệ thống Hoàn chỉnh
Chuỗi thông báo của NVIDIA tiết lộ một chiến lược có chủ đích: từng lớp sản phẩm mới — từ thiết kế lõi GPU, chuyển mạch mạng, đến kiến trúc lưu trữ — đều được xem xét lại cho các tác vụ suy luận. Kết quả là một hệ thống trong đó lập lịch GPU không còn là vấn đề phụ mà trở thành nguyên tắc thiết kế trung tâm.
Nhận định của Jensen Huang rằng “thời điểm ChatGPT cho AI vật lý đã đến” dựa trên nền tảng hạ tầng này. Các phương tiện tự hành trang bị các mô hình Alpamayo cần GPU có thể lập lịch suy luận thời gian thực dưới điều kiện không thể đoán trước. Robot vận hành theo khung GR00T đòi hỏi GPU lập lịch hiệu quả các cảm biến đa dạng và lý luận. Các ứng dụng AI vật lý này chỉ có thể thực hiện được vì NVIDIA đã tái tưởng tượng tăng tốc GPU từ cấp silicon đến phần mềm.
Hàng rào cạnh tranh mà NVIDIA xây dựng kết hợp ba yếu tố: liên tục nâng cao hiệu quả lập lịch GPU (5x cải tiến qua từng thế hệ), mở phần mềm để thúc đẩy sự chấp nhận (650 mô hình, 250 bộ dữ liệu), và làm cho việc tích hợp phần cứng-phần mềm ngày càng khó sao chép. Mỗi thông báo tại CES 2026 — từ chip hợp tác của Vera Rubin đến nền tảng bộ nhớ ngữ cảnh — đều mở rộng khả năng tăng tốc GPU đồng thời nâng cao tiêu chuẩn cho các kiến trúc cạnh tranh.
Khi ngành AI chuyển từ khan hiếm huấn luyện sang dư thừa suy luận, lập lịch GPU nổi lên như hạn chế chính về chi phí và hiệu suất. Phương pháp toàn diện của NVIDIA đảm bảo rằng khả năng tăng tốc phần cứng của họ sẽ định hình lớp hạ tầng cho thập kỷ tiếp theo của phát triển hạ tầng AI.