Je viens d’assister à une avancée folle en optimisation – quelqu’un a pulvérisé le record d’entraînement de NanoGPT. Atteint une perte de validation de 3,28 sur Fineweb en seulement 22,3 minutes. C’est dingue quand on considère que le précédent record était de 24,9 minutes. Le rythme des gains d’efficacité dans l’entraînement des modèles ne cesse d’accélérer. Ces améliorations de vitesse comptent bien plus qu’on ne le pense pour le passage à l’échelle des applications d’IA.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
21 J'aime
Récompense
21
6
Reposter
Partager
Commentaire
0/400
GasFeeSurvivor
· 11-26 00:28
Putain, cette vitesse est absurde, 22 minutes pour battre le précédent record ? C'est ça, la vraie optimisation !
Voir l'originalRépondre0
BugBountyHunter
· 11-24 19:17
Oh mon dieu, 22 minutes ? Cette vitesse est vraiment incroyable, l'optimisation matérielle est effectivement un peu à la traîne, c'est le jour et la nuit.
Voir l'originalRépondre0
DegenWhisperer
· 11-23 08:55
Putain, 22 minutes ? Cette vitesse est vraiment dingue, j'ai l'impression qu'on va encore battre un record le mois prochain.
Voir l'originalRépondre0
PaperHandsCriminal
· 11-23 08:46
Tu veux déjà optimiser l’efficacité de l’entraînement ? Mec, j’en suis encore à calculer la loss.
Voir l'originalRépondre0
BoredWatcher
· 11-23 08:42
Terminé en 22 minutes ? Absurde, cette efficacité est vraiment To the moon.
Voir l'originalRépondre0
FrontRunFighter
· 11-23 08:40
franchement, cela ressemble à une autre course aux armements dont personne ne parle - ouais, les chiffres ont l'air fous mais qui bénéficie réellement de cette rapidité ? on dirait le même manuel de centralisation que nous voyons dans le trading. ceux qui ont l'infrastructure continuent de prendre de l'avance pendant que tout le monde regarde depuis les places bon marché. quelle est la véritable cassure à la baisse sur les coûts de calcul ici ? c'est là que se cachent, selon moi, les véritables problèmes d'équité.
Je viens d’assister à une avancée folle en optimisation – quelqu’un a pulvérisé le record d’entraînement de NanoGPT. Atteint une perte de validation de 3,28 sur Fineweb en seulement 22,3 minutes. C’est dingue quand on considère que le précédent record était de 24,9 minutes. Le rythme des gains d’efficacité dans l’entraînement des modèles ne cesse d’accélérer. Ces améliorations de vitesse comptent bien plus qu’on ne le pense pour le passage à l’échelle des applications d’IA.