QVAC Genesis II: Новий стандарт для навчання ШІ з 148 мільярдами токенів

robot
Генерація анотацій у процесі

Tether Data зробила значущий крок у напрямку відкритої науки, впроваджуючи QVAC Genesis II – набір освітніх даних обсягом 148 мільярдів токенів, що охоплює 19 академічних галузей. Попередня версія Genesis I містила 41 мільярд токенів, що означає зростання більш ніж на 150 відсотків, позиціонуючи це рішення як найбільший публічно доступний синтетичний навчальний набір у світі.

Чому 148 Мільярдів Токенів — Це Гра-Зміна?

Більшість сучасних навчальних наборів для ШІ залишаються закритими у рамках пропрієтарних систем, обмежуючи доступ для незалежних дослідників і академічних інституцій. Genesis II змінює цю динаміку, надаючи масивний набір даних під відкритою ліцензією Creative Commons Attribution–NonCommercial 4.0. Такий масштаб у 148 мільярдів токенів дозволяє тренувати моделі, які глибше розуміють речі — не лише передбачають текст, а й пояснюють свої вибори та логіку.

Tether Data запропонувала новий метод роботи, званий Option-Level Reasoning. Замість того, щоб розглядати правильні відповіді у тестах з множинним вибором як єдиний шлях навчання, ця техніка аналізує кожен варіант — як правильний, так і поширені неправильні переконання. Таким чином, моделі навчаються розпізнавати, чому конкретна відповідь зазнає невдачі, а не просто запам’ятовують, яка з них правильна.

Структура і Доступність

Набір даних охоплює 19 академічних галузей і зосереджений на глибині освітнього розуміння. Кожен елемент створений з урахуванням освітньої цінності — поєднуючи аналіз невдач із Option-Level Reasoning у двоступеневий процес валідації. Genesis II доступний через платформу Hugging Face разом із повною документацією та інструментами.

Незалежні тестування показують, що моделі, навчені на Genesis II, досягають вищої точності у розумінні та надають пояснення більш послідовним чином. Це перехід від поверхневої плавності до структурного розуміння, що є ключовою різницею.

Візія Децентралізованого ШІ

Павло Ардойно, генеральний директор Tether, підкреслив філософію проекту: «Більшість навчання ШІ сьогодні оптимізує плавність, а не розуміння. Завдяки цій публікації ми йдемо далі — робимо ставку на структуру, логіку та ясність.» Відкритий доступ до 148 мільярдів токенів дозволяє дослідникам створювати системи ШІ без залежності від централізованих хмарних платформ.

Ініціатива підтримує децентралізований розвиток ШІ і усуває структурні бар’єри, з якими стикаються менші дослідницькі групи. У міру розширення застосування ШІ у освіті, науці та фінансових послугах значення відкритих, пояснюваних і надійних навчальних наборів зростатиме — і Genesis II встановлює новий стандарт для цієї категорії.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$3.35KХолдери:1
    0.00%
  • Рин. кап.:$3.39KХолдери:2
    0.05%
  • Рин. кап.:$3.43KХолдери:2
    0.50%
  • Рин. кап.:$3.36KХолдери:1
    0.00%
  • Рин. кап.:$3.35KХолдери:1
    0.00%
  • Закріпити