Alguma organização (SGLang) agora atinge 7.583 tokens por segundo por GPU executando algum modelo de IA R1 no GB200 NVL72, um salto de 2,7x em relação ao H100.
Estamos entusiasmados por ver o ecossistema de código aberto avançar as otimizações de inferência no GB200 NVL72, reduzindo o custo por token para a indústria em
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
22 gostos
Recompensa
22
8
Partilhar
Comentar
0/400
AltcoinHunter
· 06-19 17:03
Fritem, fritem! Aumentou 2,7 vezes, não listado
Responder0
CryptoPunster
· 06-18 08:09
A guerra de hardware no futuro vai acabar com os touros.
Responder0
LiquidityWizard
· 06-17 07:19
*teoricamente* multiplicar a eficiência por 2,7x significa -63% da base de custo... fascinante
Responder0
DeFiDoctor
· 06-17 01:31
O modo de amplificação digital está em dúvida. Recomenda-se revisar o grupo de controle.
Responder0
TokenAlchemist
· 06-17 01:16
meh, tps bruto não significa extração de mev otimizada, para ser honesto
Responder0
GasWhisperer
· 06-17 01:16
essas métricas de tps estão fluindo como ondas suaves de pool de mem rn
Responder0
ProposalManiac
· 06-17 01:15
Ainda é a Nvidia, não tenho pontos suficientes.
Responder0
HodlKumamon
· 06-17 01:09
Eh, como é forte! ww Grande despesa, Poder de computação pequeno, mestre.
Alguma organização (SGLang) agora atinge 7.583 tokens por segundo por GPU executando algum modelo de IA R1 no GB200 NVL72, um salto de 2,7x em relação ao H100.
Estamos entusiasmados por ver o ecossistema de código aberto avançar as otimizações de inferência no GB200 NVL72, reduzindo o custo por token para a indústria em