QVAC Genesis II: Новый стандарт для обучения ИИ с 148 миллиардами токенов

robot
Генерация тезисов в процессе

Tether Data сделала значительный шаг навстречу открытой науке, представив QVAC Genesis II – набор образовательных данных объемом 148 миллиардов токенов, охватывающий 19 академических дисциплин. Предыдущая версия Genesis I содержала 41 миллиард токенов, что означает рост более чем на 150 процентов, позиционируя это решение как крупнейший публично доступный синтетический обучающий набор в мире.

Почему 148 миллиардов токенов — это переломный момент?

Большинство современных обучающих наборов для ИИ остаются закрытыми в рамках проприетарных систем, ограничивая доступ для независимых исследователей и академических учреждений. Genesis II меняет эту динамику, предоставляя масштабный набор данных под открытой лицензией Creative Commons Attribution–NonCommercial 4.0. Такой объем в 148 миллиардов токенов позволяет обучать модели, которые понимают глубже — они не только предсказывают текст, но и объясняют свои выборы и рассуждения.

Tether Data предложила новый метод работы, называемый Option-Level Reasoning. Вместо того чтобы рассматривать правильные ответы в тестах с несколькими вариантами как единственный путь обучения, эта техника анализирует каждую опцию — как правильную, так и распространенные ошибочные убеждения. Таким образом, модели учатся распознавать, почему конкретный ответ не сработал, а не просто запоминать, какой из них правильный.

Структура и доступность

Набор данных охватывает 19 академических дисциплин и сосредоточен на глубине образовательного рассуждения. Каждый элемент создан с учетом образовательной ценности — объединяя анализ ошибок с Option-Level Reasoning в двухэтапный процесс валидации. Genesis II доступен через платформу Hugging Face вместе с полной документацией и инструментами.

Независимые тесты показывают, что модели, обученные на Genesis II, достигают более высокой точности в рассуждениях и предоставляют объяснения более последовательно. Этот сдвиг от поверхностной беглости к структурному пониманию является ключевым отличием.

Видение децентрализованного ИИ

Пауоло Ардойно, генеральный директор Tether, подчеркнул философию проекта: «Большинство обучения ИИ сегодня оптимизирует плавность, а не понимание. Благодаря этой публикации мы идем дальше — делаем ставку на структуру, рассуждение и ясность.» Открытая публикация 148 миллиардов токенов позволяет исследователям строить системы ИИ без зависимости от централизованных облачных платформ.

Инициатива поддерживает децентрализенное развитие ИИ и устраняет структурные барьеры, с которыми сталкиваются меньшие исследовательские группы. По мере расширения ИИ в области образования, науки и финансовых услуг значение открытых, объяснимых и надежных обучающих наборов будет расти — и Genesis II задает новый стандарт для этой категории.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Горячее на Gate Fun

    Подробнее
  • РК:$3.35KДержатели:1
    0.00%
  • РК:$3.39KДержатели:2
    0.05%
  • РК:$3.43KДержатели:2
    0.50%
  • РК:$3.36KДержатели:1
    0.00%
  • РК:$3.35KДержатели:1
    0.00%
  • Закрепить