Certaines organisations (SGLang) atteignent désormais 7 583 jetons par seconde par GPU exécutant un certain modèle d'IA R1 sur le GB200 NVL72, un bond de 2,7x par rapport au H100.
Nous sommes ravis de voir l'écosystème open source faire progresser les optimisations d'inférence sur GB200 NVL72, réduisant le coût par jeton pour l'industrie à
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Certaines organisations (SGLang) atteignent désormais 7 583 jetons par seconde par GPU exécutant un certain modèle d'IA R1 sur le GB200 NVL72, un bond de 2,7x par rapport au H100.
Nous sommes ravis de voir l'écosystème open source faire progresser les optimisations d'inférence sur GB200 NVL72, réduisant le coût par jeton pour l'industrie à