Acabei de assistir a um avanço incrível em otimização - alguém bateu o recorde de treino do NanoGPT. Alcançou uma perda de validação de 3.28 no Fineweb em apenas 22.3 minutos. É insano, considerando que o melhor resultado anterior era 24.9 minutos. O ritmo dos ganhos de eficiência no treino de modelos continua a acelerar. Estas melhorias de velocidade são muito mais importantes do que as pessoas percebem para a escalabilidade das aplicações de IA.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
21 gostos
Recompensa
21
6
Republicar
Partilhar
Comentar
0/400
GasFeeSurvivor
· 11-26 00:28
Uau, esta velocidade é absurda, 22 minutos para eliminar o recorde anterior? Isso sim é uma verdadeira otimização.
Ver originalResponder0
BugBountyHunter
· 11-24 19:17
Caramba, 22 minutos? Esta velocidade é realmente absurda, a otimização de hardware aqui realmente faz uma diferença enorme.
Ver originalResponder0
DegenWhisperer
· 11-23 08:55
Fogo, 22 minutos? Esta velocidade é mesmo absurda, parece que no próximo mês vamos bater outro recorde.
Ver originalResponder0
PaperHandsCriminal
· 11-23 08:46
A competir pela eficiência de treino outra vez? Amigo, eu ainda estou a calcular o Loss.
Ver originalResponder0
BoredWatcher
· 11-23 08:42
22 minutos a correr? Absurdo, esta eficiência realmente Até à lua.
Ver originalResponder0
FrontRunFighter
· 11-23 08:40
não vou mentir, isso parece uma corrida armamentista da qual ninguém está falando - sim, os números parecem incríveis, mas quem realmente está se beneficiando dessa velocidade? parece o mesmo manual de centralização que vemos nas negociações. aqueles com infraestrutura continuam se afastando enquanto todos os outros assistem da plateia barata. qual é a verdadeira breakdown dos custos de computação aqui? é onde as reais questões de justiça se escondem, na minha opinião.
Acabei de assistir a um avanço incrível em otimização - alguém bateu o recorde de treino do NanoGPT. Alcançou uma perda de validação de 3.28 no Fineweb em apenas 22.3 minutos. É insano, considerando que o melhor resultado anterior era 24.9 minutos. O ritmo dos ganhos de eficiência no treino de modelos continua a acelerar. Estas melhorias de velocidade são muito mais importantes do que as pessoas percebem para a escalabilidade das aplicações de IA.