Деяка організація (SGLang) тепер досягає 7,583 токенів на секунду на один GPU, запустивши певну AI модель R1 на GB200 NVL72, що є стрибком у 2.7 рази у порівнянні з H100.
Ми раді бачити, як екосистема з відкритим кодом розвиває оптимізації висновків на GB200 NVL72, знижуючи вартість за токен для галузі на
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Деяка організація (SGLang) тепер досягає 7,583 токенів на секунду на один GPU, запустивши певну AI модель R1 на GB200 NVL72, що є стрибком у 2.7 рази у порівнянні з H100.
Ми раді бачити, як екосистема з відкритим кодом розвиває оптимізації висновків на GB200 NVL72, знижуючи вартість за токен для галузі на