Некоторая организация (SGLang) теперь достигает 7 583 токенов в секунду на каждый GPU, работающий с некоторой AI моделью R1 на GB200 NVL72, что является скачком в 2,7 раза по сравнению с H100.



Мы рады видеть, как экосистема с открытым исходным кодом продвигает оптимизацию вывода на GB200 NVL72, снижая стоимость за токен для отрасли на
A6,41%
OVER1,52%
TOKEN-4,48%
Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 9
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить