QVAC Genesis II: 1480億トークンを持つAIトレーニングの新基準

robot
概要作成中

Tether Dataは、オープンな学習の方向に大きな一歩を踏み出し、QVAC Genesis IIを導入しました。これは、19の学術分野をカバーする1480億トークンの教育データセットです。前バージョンのGenesis Iは410億トークンを含んでおり、150%以上の増加を示し、これを世界最大の公開利用可能な合成トレーニングデータセットとして位置付けています。

なぜ1480億トークンがゲームチェンジャーなのか?

現代のAIトレーニングデータセットの大部分は、独自のシステム内に閉じられており、独立した研究者や学術機関のアクセスを制限しています。Genesis IIは、このダイナミクスを変え、Creative Commons Attribution–NonCommercial 4.0のオープンライセンスの下で巨大なデータセットを公開します。この1480億トークンの規模は、より深く理解できるモデルのトレーニングを可能にします。これらのモデルは、単にテキストを予測するだけでなく、その選択や推論を説明することもできるのです。

Tether Dataは、「Option-Level Reasoning」と呼ばれる新しい作業方法を提案しました。これは、多肢選択式テストの正解を唯一の学習経路とみなすのではなく、正解だけでなく一般的な誤解も分析します。これにより、モデルは特定の回答がなぜ失敗するのかを認識し、正解を記憶するだけでなく、その理由を理解できるようになります。

構造とアクセス性

このデータセットは、19の学術分野をカバーし、教育的な推論の深さに焦点を当てています。各要素は、Option-Level Reasoningによる失敗の分析と二段階の検証プロセスを組み合わせて、教育的価値を持つように生成されています。Genesis IIは、Hugging Faceプラットフォームを通じて、完全なドキュメントとツールとともに利用可能です。

独立したテストでは、Genesis IIでトレーニングされたモデルが推論の精度を向上させ、より一貫した説明を提供できることが示されています。表面的な流暢さから構造的理解へのこのシフトは、重要な違いを生み出しています。

分散型AIのビジョン

TetherのCEO、Paolo Ardoinoは、プロジェクトの哲学を次のように強調しました。「今日のAIトレーニングの大部分は、流暢さの最適化に偏っており、理解を重視していません。この公開により、私たちはさらに進み、構造、推論、明確さに焦点を当てています。」1480億トークンのオープンな公開は、研究者が集中型クラウドプラットフォームに依存せずにAIシステムを構築できるようにします。

このイニシアチブは、分散型AIの発展を支援し、小規模な研究グループが直面する構造的な障壁を排除します。AIが教育、科学、金融サービスへと拡大するにつれ、オープンで説明可能かつ信頼性の高いトレーニングデータセットの重要性は高まるでしょう。そして、Genesis IIはこのカテゴリーの新しい標準を打ち立てています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン