Alguma organização (SGLang) agora atinge 7.583 tokens por segundo por GPU executando algum modelo de IA R1 no GB200 NVL72, um salto de 2,7x em relação ao H100.



Estamos entusiasmados por ver o ecossistema de código aberto avançar as otimizações de inferência no GB200 NVL72, reduzindo o custo por token para a indústria em
A3,93%
OVER7,42%
TOKEN-40,5%
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 9
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar

Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)