QVAC Genesis II: Nuevo estándar para la capacitación en IA con 148 mil millones de tokens

robot
Generación de resúmenes en curso

Tether Data dio un paso importante hacia la ciencia abierta, introduciendo QVAC Genesis II – un conjunto de datos educativos de 148 mil millones de tokens que abarca 19 disciplinas académicas. La versión anterior, Genesis I, contenía 41 mil millones de tokens, lo que representa un aumento de más del 150 por ciento, posicionando esta solución como el conjunto de entrenamiento sintético público más grande del mundo.

¿Por qué 148 Mil millones de tokens son un cambio de juego?

La mayoría de los conjuntos de datos de entrenamiento de IA contemporáneos permanecen cerrados en sistemas propietarios, limitando el acceso a investigadores independientes e instituciones académicas. Genesis II cambia esta dinámica, poniendo a disposición un conjunto de datos masivo bajo una licencia Creative Commons Attribution–NonCommercial 4.0. Esta escala de 148 mil millones de tokens permite entrenar modelos que comprenden las cosas en profundidad: no solo predicen texto, sino que explican sus elecciones y razonamientos.

Tether Data ha propuesto un nuevo método llamado Razonamiento por Nivel de Opción. En lugar de tratar las respuestas correctas en pruebas de opción múltiple como la única vía de aprendizaje, esta técnica analiza cada opción, tanto las correctas como las creencias erróneas comunes. De esta manera, los modelos aprenden a reconocer por qué una respuesta concreta fracasa, y no solo a memorizar cuál es la correcta.

Estructura y disponibilidad

El conjunto de datos abarca 19 disciplinas académicas y se centra en la profundidad del razonamiento educativo. Cada elemento ha sido generado pensando en su valor educativo, combinando el análisis de fracasos con Razonamiento por Nivel de Opción en un proceso de validación en dos etapas. Genesis II está disponible a través de la plataforma Hugging Face junto con documentación completa y herramientas.

Pruebas independientes muestran que los modelos entrenados con Genesis II alcanzan una mayor precisión en el razonamiento y proporcionan explicaciones de manera más coherente. Este desplazamiento de la superficialidad hacia la comprensión estructural representa una diferencia clave.

Visión de una IA descentralizada

Paolo Ardoino, director general de Tether, destacó la filosofía del proyecto: “La mayor parte del entrenamiento de IA hoy en día optimiza la fluidez, no la comprensión. Con esta publicación, vamos más allá: apostamos por la estructura, el razonamiento y la claridad.” La disponibilidad abierta de 148 mil millones de tokens permite a los investigadores construir sistemas de IA sin depender de plataformas en la nube centralizadas.

La iniciativa apoya el desarrollo descentralizado de la IA y elimina las barreras estructurales que enfrentan los grupos de investigación más pequeños. A medida que la IA se expanda hacia la educación, la ciencia y los servicios financieros, la importancia de conjuntos de entrenamiento abiertos, explicables y confiables crecerá, y Genesis II marca un nuevo estándar en esta categoría.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado

Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanea para descargar la aplicación de Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)