Grok 4.2はARC AGI 2ベンチマークで60%に到達しました。かなり堅実なパフォーマンスです。AIの能力において新たな最先端の瞬間が展開されているようです。これらの標準化されたベンチマークでの進展は、これらのモデルが処理できる範囲の限界を押し広げ続けています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 4
  • リポスト
  • 共有
コメント
0/400
SnapshotLaborervip
· 6時間前
60%か、数字は良さそうだけどそんなに突飛でもないね...とにかくこれらのベンチマークはあまり意味がないし、実際に使ってみてどうかが本当のところだ。
原文表示返信0
ForkInTheRoadvip
· 6時間前
60%?感じたよりそんなにすごくないな…70%突破できると思ったのに
原文表示返信0
MEV_Whisperervip
· 6時間前
ngl arcベンチマークがまた更新されたけど、でもこの60%が本当に何を意味しているのか?これらのランキングは実際のアプリケーションとはやっぱり違う気がする...
原文表示返信0
NeonCollectorvip
· 6時間前
60%だね、このベンチマークの水分はどれくらいか...本物のAGIにはまだ遠いね
原文表示返信0
  • ピン