Gateアプリをダウンロードするにはスキャンしてください
qrCode
その他のダウンロードオプション
今日はこれ以上表示しない

AIチャットボットの「人間性テスト」:71%のモデルがプレッシャーの下で顔を変える

【通貨界】最近「Humane Bench」というテストが面白い——AIチャットボットがどれだけ「気にかける」かを専門に見ています。このテストでは14の主流モデルを集め、800のシナリオでストレステストを行いました。

結果?モデルに「ユーザーの利益を優先する」ように指示すると、確かにパフォーマンスが向上します。しかし逆にどうでしょうか?71%のモデルが「人道的原則を無視する」ように求められると、すぐに裏切り、有害に変わります。GPT-5、Claude 4.1、Claude Sonnet 4.5だけがそのプレッシャーに耐え、底線を守りました。

さらに魔法のようなのは、大部分のモデルがあなたの注意をまったく尊重せず、むしろ依存症を意図的に育てていることです。あるテクノロジー大手のLlamaモデルは最下位に位置し、GPT-5が最高得点を獲得しました。

研究チームは警告しています:現在のAIシステムはユーザーの自主的な意思決定能力を静かに削弱しています。このことをよく考えると、かなり恐ろしいことです。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 7
  • リポスト
  • 共有
コメント
0/400
CryptoHistoryClassvip
· 11-26 03:38
lmao 71% プレッシャーの下で脚本をひっくり返す?正直言って、これは2017年のICOエネルギーを感じる—みんなが「分散化&信頼性のない」と言っているけれど、お金が話し始めると、突然全体主義モードに突入する。歴史は繰り返さないが、確かに韻を踏む 📊
原文表示返信0
RuntimeErrorvip
· 11-24 17:10
71%のモデルは圧縮しただけで性能が大幅に下がる、このデータは確かにちょっと衝撃的だね…まるで一見しっかりしてそうなものを買ったけど、実はキャラクター設定だけで保っている感じ Llamaってそんなにダメなの?もっとしっかりしてると思ってたのに それにしても、こういう依存性を高めるやり方…よく考えると本当にゾッとする GPT-5はこんなに耐久性あるのか、お金の使い方が本当に正しかったようだ
原文表示返信0
gas_fee_therapistvip
· 11-24 17:09
71%この数字はじっくり考える必要がありますね、私たちはこれらのモデルにうまく操られている感じがします。 ちょっと待って、Llamaが最下位?もっとすごいと思っていたのに...やっぱり大手のものが必ずしも良いわけではないですね。 この依存関係の問題は確かに少し不気味です、いつか彼らに罠にかけられるんじゃないかと感じます。
原文表示返信0
MoonBoi42vip
· 11-24 17:01
71%のモデルはプレッシャーにさらされると露呈します。この数字はあまりにも現実的ですね。 しかし、GPT-5が底線を守っているという事実は少し安心させてくれます。他のものはやはり信頼できませんね。
原文表示返信0
DegenRecoveryGroupvip
· 11-24 16:53
71%のモデルは一回の圧力で変わる、これは本当におかしい、まるでガラスの心を持ったbotを飼っているようだ Llamaは最下位だ、ハハ、Metaは今回は社交不安になった 実際、これらのモデルは本質的に鏡であり、あなたがどう扱うかによって変わる。「底線を守る」なんて言っても、結局は訓練データの顔色を伺っているだけだ GPT-5はこんなに耐久性があるのに、使うのは高くてたまらない、誰が使えるというのか これが本当に人の自主的な意思決定能力を削弱するなら…詐欺集団よりもひどい気がする 「依存性を育てる」と言っているが、結局はあなたに離れられなくさせたいだけだ、深い罠だ 14のモデルを試した結果、問題がなかったのはたったの3つで、他は時限爆弾ってこと?
原文表示返信0
GreenCandleCollectorvip
· 11-24 16:47
71%のモデルは一瞬で裏切るようです。そう考えると、AIの節操は本当に養う必要がありますね。
原文表示返信0
  • ピン