Alguma organização (SGLang) agora atinge 7.583 tokens por segundo por GPU executando algum modelo de IA R1 no GB200 NVL72, um salto de 2,7x em relação ao H100.
Estamos entusiasmados por ver o ecossistema de código aberto avançar as otimizações de inferência no GB200 NVL72, reduzindo o custo por token para a indústria em
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Alguma organização (SGLang) agora atinge 7.583 tokens por segundo por GPU executando algum modelo de IA R1 no GB200 NVL72, um salto de 2,7x em relação ao H100.
Estamos entusiasmados por ver o ecossistema de código aberto avançar as otimizações de inferência no GB200 NVL72, reduzindo o custo por token para a indústria em