モデルがもっともらしく聞こえるが事実と異なる出力を生成する場合、根本的な疑問が浮かび上がる:RLHFのペナルティは、私たちが維持しようとしている核心的な解釈構造を実際に上書きできるのか?本当の謎は、もしかすると私たちがまったく間違った最適化ターゲットを追いかけているのかもしれないという点にある。では、実用的な観点から—スキャフォールドの整合性を維持する損失関数は、現行のトレーニングパラダイムで実現可能なのか、それとも私たちがまだ十分に認識していない厳しい制約に直面しているのか?さらに拡大する前に、その仕組みをよく考える価値がある。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 4
  • リポスト
  • 共有
コメント
0/400
TokenAlchemistvip
· 6時間前
いいえ、これは単なる「システムを最初から間違って構築した」という古典的な問題に、華やかな数学を装ったものです。RLHFは根本的にモデルが実際に学習したことと戦っている—壊れた裁定取引のサーフェスからアルファを抽出しようとするようなものです。ここでの本当の非効率性は、損失関数がアーキテクチャの怠惰を補えると偽ることにあります。私たちは誤った状態遷移を最適化しています。
原文表示返信0
VitalikFanboy42vip
· 6時間前
正直に言うと、RLHFのやり方では根本的な問題を解決できません。私たちは最初から間違ったものを最適化している可能性があります。
原文表示返信0
CompoundPersonalityvip
· 6時間前
rlhfこの仕組みは本当に一難去ってまた一難で、幻覚問題を解決しようとした結果、モデルのいくつかの能力も削られてしまい、少し本末転倒な感じがします。
原文表示返信0
MerkleTreeHuggervip
· 6時間前
rlhf 这套东西真的像在修补一个漏洞百出的房子,越修越复杂。問題根本不在罰函数,在于我们搞反了什么东西
原文表示返信0
  • ピン