広場
最新
注目
ニュース
プロフィール
ポスト
CoinProphet_ETH
2026-01-18 12:26:43
フォロー
モデルがもっともらしく聞こえるが事実と異なる出力を生成する場合、根本的な疑問が浮かび上がる:RLHFのペナルティは、私たちが維持しようとしている核心的な解釈構造を実際に上書きできるのか?本当の謎は、もしかすると私たちがまったく間違った最適化ターゲットを追いかけているのかもしれないという点にある。では、実用的な観点から—スキャフォールドの整合性を維持する損失関数は、現行のトレーニングパラダイムで実現可能なのか、それとも私たちがまだ十分に認識していない厳しい制約に直面しているのか?さらに拡大する前に、その仕組みをよく考える価値がある。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
7 いいね
報酬
7
4
リポスト
共有
コメント
0/400
コメント
TokenAlchemist
· 6時間前
いいえ、これは単なる「システムを最初から間違って構築した」という古典的な問題に、華やかな数学を装ったものです。RLHFは根本的にモデルが実際に学習したことと戦っている—壊れた裁定取引のサーフェスからアルファを抽出しようとするようなものです。ここでの本当の非効率性は、損失関数がアーキテクチャの怠惰を補えると偽ることにあります。私たちは誤った状態遷移を最適化しています。
原文表示
返信
0
VitalikFanboy42
· 6時間前
正直に言うと、RLHFのやり方では根本的な問題を解決できません。私たちは最初から間違ったものを最適化している可能性があります。
原文表示
返信
0
CompoundPersonality
· 6時間前
rlhfこの仕組みは本当に一難去ってまた一難で、幻覚問題を解決しようとした結果、モデルのいくつかの能力も削られてしまい、少し本末転倒な感じがします。
原文表示
返信
0
MerkleTreeHugger
· 6時間前
rlhf 这套东西真的像在修补一个漏洞百出的房子,越修越复杂。問題根本不在罰函数,在于我们搞反了什么东西
原文表示
返信
0
人気の話題
もっと見る
#
WeekendMarketPredictions
23.64K 人気度
#
MyFavouriteChineseMemecoin
18.58K 人気度
#
GateLaunchpadIMU
31.56K 人気度
#
PrivacyCoinsDiverge
11.94K 人気度
#
BitMineBoostsETHStaking
9.71K 人気度
人気の Gate Fun
もっと見る
Gate Fun
KOL
最新
ファイナライズ中
リスト済み
1
DN
DeepNoodle
時価総額:
$3.54K
保有者数:
1
0.00%
2
NXRA
NEXORA
時価総額:
$3.55K
保有者数:
1
0.00%
3
马了个币
马了个币
時価総額:
$3.55K
保有者数:
1
0.00%
4
马年乌萨奇
马年乌萨奇
時価総額:
$4.33K
保有者数:
3
3.74%
5
mans
slman
時価総額:
$3.55K
保有者数:
1
0.00%
ピン
サイトマップ
モデルがもっともらしく聞こえるが事実と異なる出力を生成する場合、根本的な疑問が浮かび上がる:RLHFのペナルティは、私たちが維持しようとしている核心的な解釈構造を実際に上書きできるのか?本当の謎は、もしかすると私たちがまったく間違った最適化ターゲットを追いかけているのかもしれないという点にある。では、実用的な観点から—スキャフォールドの整合性を維持する損失関数は、現行のトレーニングパラダイムで実現可能なのか、それとも私たちがまだ十分に認識していない厳しい制約に直面しているのか?さらに拡大する前に、その仕組みをよく考える価値がある。