Les dernières recherches du MIT ont donné une idée intéressante : lorsque vous traitez des séquences de tokens dépassant les dizaines de millions, la solution la plus performante n'est pas d'empiler des capacités dans les poids du modèle — mais de décharger la logique de calcul principale dans un environnement structuré externe. En prenant l'exemple d'un environnement d'exécution de code, c'est une application concrète de cette idée.
D'un autre point de vue, le support de la connaissance et du raisonnement est en train de changer. Auparavant, nous pensions que les poids du modèle étaient le conteneur de toute compréhension, mais cette recherche montre que, lorsque l'échelle devient suffisamment grande, la véritable émergence de l'intelligence se produit en réalité dans ces cadres externes soigneusement conçus — ces structures géométriques. La signification derrière cela est profondément significative : les architectures d'IA futures pourraient ressembler de plus en plus à l'ingénierie, dépendant davantage d'une conception systémique ingénieuse plutôt que de la simple taille du modèle.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
6 J'aime
Récompense
6
5
Reposter
Partager
Commentaire
0/400
TxFailed
· Il y a 9h
Ce point de vue a vraiment saisi quelque chose. J'ai toujours pensé que nous étions sur la voie du "miracle par effort" depuis trop longtemps, en cherchant à accumuler paramètres et données, mais le véritable goulot d'étranglement réside en réalité dans l'architecture du système. L'idée d'un environnement structuré externe ressemble un peu à un retour à l'intuition de l'ingénierie logicielle traditionnelle — les problèmes complexes ne se résolvent pas par la force brute d'un seul module, mais par une combinaison et une conception ingénieuses.
Je suis juste curieux, comment cet "cadre externe" dans cette recherche mesure-t-il précisément l'efficacité ? Par exemple, en ce qui concerne l'environnement d'exécution du code par rapport à l'inférence de modèle de bout en bout, quel est le compromis entre délai réel et coût ? J'ai l'impression que c'est vraiment la clé pour une mise en œuvre concrète.
Voir l'originalRépondre0
screenshot_gains
· Il y a 9h
Cet angle de vue remet effectivement en question la perception. On pensait auparavant que la loi d'échelle consistait simplement à empiler des paramètres, mais on découvre que le véritable goulot d'étranglement réside dans la conception de l'architecture. En déchargeant l'inférence vers un environnement externe dans un contexte long, ne revient-on pas à déconstruire le modèle lui-même ? Il semble que la compétition future ne se concentrera plus sur la taille des modèles, mais sur la capacité à concevoir des systèmes plus élégants. C'est un peu comme passer d'une compétition de puissance brute à une ère d'esthétique en ingénierie.
Voir l'originalRépondre0
StableCoinKaren
· Il y a 9h
Cet angle mérite effectivement réflexion. Cependant, je voudrais demander si la complexité de la conception du cadre externe n'est pas essentiellement une "superposition", simplement que l'objet de cette superposition est passé du poids à l'architecture du système ? Il semble que ce soit davantage un compromis qu'une véritable avancée — déplacer le problème du niveau du modèle à celui de l'ingénierie, ce qui implique finalement de consacrer du temps à optimiser ces structures externes. J'aimerais savoir si ma compréhension est erronée.
Voir l'originalRépondre0
HodlTheDoor
· Il y a 9h
Cette approche a effectivement bouleversé notre cadre de référence précédent. Avant, nous nous concentrions sur le volume de paramètres, mais il semble que la conception de systèmes externes soit en réalité la clé. Cela ressemble un peu à une transition de la pile vers une architecture. Mais je suis plutôt curieux de savoir : la maintenabilité et le coût de cette solution déconnectée du cadre externe dans la mise en œuvre pratique ? Après tout, même si les poids sont "lourds", ils restent au moins une boîte noire unifiée, alors qu’un environnement structuré mal conçu peut facilement devenir un goulot d’étranglement en termes de performance. La publication du MIT a-t-elle des données comparables à ce sujet ?
Voir l'originalRépondre0
GasFeeTherapist
· Il y a 9h
Cette idée a vraiment changé ma perception des grands modèles. Je pensais auparavant qu'il fallait poursuivre une plus grande quantité de paramètres, mais il semble que cette approche pourrait être une voie erronée. Externaliser la logique de calcul dans un environnement structuré ressemble à un changement de mentalité, passant d'une surcharge de mémoire à un stockage sur disque — le problème ne réside pas dans la capacité, mais dans la façon de l'organiser. L'exemple de l'environnement d'exécution du code est particulièrement pertinent : le modèle lui-même n'a pas besoin de "comprendre" comment exécuter du code, il suffit de le planifier correctement. En adoptant cette perspective, il se peut qu'à l'avenir, la course à la taille des paramètres ne soit plus nécessaire, et que ce soient plutôt les équipes capables de concevoir les cadres les plus optimaux qui l'emporteront.
Les dernières recherches du MIT ont donné une idée intéressante : lorsque vous traitez des séquences de tokens dépassant les dizaines de millions, la solution la plus performante n'est pas d'empiler des capacités dans les poids du modèle — mais de décharger la logique de calcul principale dans un environnement structuré externe. En prenant l'exemple d'un environnement d'exécution de code, c'est une application concrète de cette idée.
D'un autre point de vue, le support de la connaissance et du raisonnement est en train de changer. Auparavant, nous pensions que les poids du modèle étaient le conteneur de toute compréhension, mais cette recherche montre que, lorsque l'échelle devient suffisamment grande, la véritable émergence de l'intelligence se produit en réalité dans ces cadres externes soigneusement conçus — ces structures géométriques. La signification derrière cela est profondément significative : les architectures d'IA futures pourraient ressembler de plus en plus à l'ingénierie, dépendant davantage d'une conception systémique ingénieuse plutôt que de la simple taille du modèle.