La última investigación del MIT ha dado una revelación interesante: cuando manejas secuencias de tokens que superan los millones, la solución más eficiente no consiste en acumular capacidades en los pesos del modelo, sino en externalizar la lógica de cálculo principal en un entorno estructurado externo. Tomemos como ejemplo un entorno de ejecución de código, que es una práctica concreta de esta idea.



Desde otra perspectiva, el soporte para conocimiento y razonamiento está en proceso de transformación. Antes pensábamos que los pesos del modelo eran el contenedor de toda comprensión, pero esta investigación muestra que, cuando la escala es lo suficientemente grande, la verdadera emergencia de inteligencia ocurre en esos marcos externos cuidadosamente diseñados—esas estructuras geométricas. La implicación detrás de esto es bastante profunda: en el futuro, las arquitecturas de IA podrían parecerse cada vez más a la ingeniería, dependiendo más de un diseño de sistemas ingenioso que del tamaño del modelo en sí.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 5
  • Republicar
  • Compartir
Comentar
0/400
TxFailedvip
· hace13h
Este punto de vista realmente captó algo. Siempre he pensado que llevamos demasiado tiempo en el camino de "sacar milagros con gran esfuerzo", acumulando parámetros y datos, pero en realidad el cuello de botella está en la arquitectura del sistema. La idea de un entorno estructurado externo se asemeja un poco a volver a la intuición de la ingeniería de software tradicional: los problemas complejos no se resuelven con un solo módulo a toda prisa, sino con combinaciones y diseños ingeniosos. Solo tengo curiosidad, ¿cómo se mide exactamente la eficiencia en este "marco externo" en la investigación? Por ejemplo, en comparación con un entorno de ejecución de código y la inferencia de modelos de extremo a extremo, ¿cómo es la compensación entre la latencia real y el costo? Siento que esa es la clave para que realmente pueda implementarse.
Ver originalesResponder0
screenshot_gainsvip
· hace13h
Este enfoque realmente actualiza la percepción. Antes pensaba que la ley de escalado simplemente consistía en apilar parámetros, pero no esperaba que el cuello de botella estuviera en el diseño de la arquitectura. Al descargar la inferencia a un entorno externo en contextos largos, ¿no estamos descomponiendo el propio modelo? Parece que la competencia futura se centrará en quién puede diseñar sistemas más elegantes, en lugar de quién tiene un modelo más grande. Es como una transición de la competencia en potencia de cálculo bruta a una era de estética en ingeniería.
Ver originalesResponder0
StableCoinKarenvip
· hace13h
Este enfoque ciertamente merece ser considerado. Pero quiero preguntar, ¿la complejidad en el diseño del marco externo no es en esencia también una "construcción"? Solo que el objeto de esa construcción ha cambiado de pesos a la arquitectura del sistema. Siento que esto es más un compromiso (trade-off) que una verdadera innovación—cambiar el problema del nivel del modelo al nivel de ingeniería, y al final todavía se requiere invertir tiempo en optimizar estas estructuras externas. Quiero saber si mi comprensión está equivocada.
Ver originalesResponder0
HodlTheDoorvip
· hace14h
Esta idea realmente ha revolucionado nuestro marco de conocimiento anterior. Antes nos centrábamos en aumentar la cantidad de parámetros, pero ahora parece que el diseño de sistemas externos es la clave, algo así como una transición de la acumulación a la arquitectura. Pero lo que me genera más curiosidad es cómo de factible y costoso es mantener y desplegar en la práctica una solución que desacopla en un marco externo. Después de todo, aunque los pesos son "pesados", al menos son una caja negra unificada, mientras que un entorno estructurado mal diseñado puede convertirse fácilmente en un cuello de botella en el rendimiento. ¿El artículo del MIT tiene datos comparativos en este aspecto?
Ver originalesResponder0
GasFeeTherapistvip
· hace14h
Esta idea realmente cambió mi percepción sobre los grandes modelos. Antes pensaba que había que buscar un mayor número de parámetros, pero ahora parece que esa estrategia podría estar yéndose por el camino equivocado. Externalizar la lógica de cálculo en un entorno estructurado suena como un cambio de mentalidad de la memoria a la memoria en disco—el problema no está en la capacidad, sino en cómo se organiza. El ejemplo del entorno de ejecución de código es especialmente revelador, el modelo en sí no necesita "entender" cómo ejecutar código, solo necesita ser bien gestionado. Pensando así, en el futuro quizás no sea necesario seguir una carrera armamentística en cantidad de parámetros, sino que los equipos que puedan diseñar el marco más óptimo serán los que ganen.
Ver originalesResponder0
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)