2026-01-18 12:26:43

モデルがもっともらしく聞こえるが事実と異なる出力を生成する場合、根本的な疑問が浮かび上がる：RLHFのペナルティは、私たちが維持しようとしている核心的な解釈構造を実際に上書きできるのか？本当の謎は、もしかすると私たちがまったく間違った最適化ターゲットを追いかけているのかもしれないという点にある。では、実用的な観点から—スキャフォールドの整合性を維持する損失関数は、現行のトレーニングパラダイムで実現可能なのか、それとも私たちがまだ十分に認識していない厳しい制約に直面しているのか？さらに拡大する前に、その仕組みをよく考える価値がある。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

7 いいね

報酬
7
4
リポスト
共有

0/400

TokenAlchemist

· 6時間前

いいえ、これは単なる「システムを最初から間違って構築した」という古典的な問題に、華やかな数学を装ったものです。RLHFは根本的にモデルが実際に学習したことと戦っている—壊れた裁定取引のサーフェスからアルファを抽出しようとするようなものです。ここでの本当の非効率性は、損失関数がアーキテクチャの怠惰を補えると偽ることにあります。私たちは誤った状態遷移を最適化しています。

原文表示返信0

VitalikFanboy42