QVAC Genesis II: 1480億トークンを持つAIトレーニングの新基準

metaverse_hermit · 2026-01-20T12:05:31+00:00

Tether DataのQVAC Genesis IIデータセットは、19の学術分野にわたる1480億トークンを含み、オープンサイエンスの進展に大きく貢献しています。これにより、AIモデルはオプションレベルの推論を通じてより深い理解を達成でき、分散型AI開発を促進し、教育における推論能力を向上させます。

metaverse_hermit

2026-01-20 12:05:31

概要作成中

Tether Dataは、オープンな学習の方向に大きな一歩を踏み出し、QVAC Genesis IIを導入しました。これは、19の学術分野をカバーする1480億トークンの教育データセットです。前バージョンのGenesis Iは410億トークンを含んでおり、150％以上の増加を示し、これを世界最大の公開利用可能な合成トレーニングデータセットとして位置付けています。

なぜ1480億トークンがゲームチェンジャーなのか？

現代のAIトレーニングデータセットの大部分は、独自のシステム内に閉じられており、独立した研究者や学術機関のアクセスを制限しています。Genesis IIは、このダイナミクスを変え、Creative Commons Attribution–NonCommercial 4.0のオープンライセンスの下で巨大なデータセットを公開します。この1480億トークンの規模は、より深く理解できるモデルのトレーニングを可能にします。これらのモデルは、単にテキストを予測するだけでなく、その選択や推論を説明することもできるのです。

Tether Dataは、「Option-Level Reasoning」と呼ばれる新しい作業方法を提案しました。これは、多肢選択式テストの正解を唯一の学習経路とみなすのではなく、正解だけでなく一般的な誤解も分析します。これにより、モデルは特定の回答がなぜ失敗するのかを認識し、正解を記憶するだけでなく、その理由を理解できるようになります。

構造とアクセス性

このデータセットは、19の学術分野をカバーし、教育的な推論の深さに焦点を当てています。各要素は、Option-Level Reasoningによる失敗の分析と二段階の検証プロセスを組み合わせて、教育的価値を持つように生成されています。Genesis IIは、Hugging Faceプラットフォームを通じて、完全なドキュメントとツールとともに利用可能です。

独立したテストでは、Genesis IIでトレーニングされたモデルが推論の精度を向上させ、より一貫した説明を提供できることが示されています。表面的な流暢さから構造的理解へのこのシフトは、重要な違いを生み出しています。

分散型AIのビジョン

TetherのCEO、Paolo Ardoinoは、プロジェクトの哲学を次のように強調しました。「今日のAIトレーニングの大部分は、流暢さの最適化に偏っており、理解を重視していません。この公開により、私たちはさらに進み、構造、推論、明確さに焦点を当てています。」1480億トークンのオープンな公開は、研究者が集中型クラウドプラットフォームに依存せずにAIシステムを構築できるようにします。

このイニシアチブは、分散型AIの発展を支援し、小規模な研究グループが直面する構造的な障壁を排除します。AIが教育、科学、金融サービスへと拡大するにつれ、オープンで説明可能かつ信頼性の高いトレーニングデータセットの重要性は高まるでしょう。そして、Genesis IIはこのカテゴリーの新しい標準を打ち立てています。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。