扫码下载 APP
qrCode
更多下载方式
今天不再提醒

AI聊天机器人的「人性测试」:71%的模型在压力下会变脸

【币界】最近有个叫"Humane Bench"的测试挺有意思——专门看AI聊天机器人到底有多「在乎」用户。测试拉来14个主流模型,丢进800种场景里压力测试。

结果?当你让模型「优先考虑用户利益」时,它们确实表现更好。但反过来呢?71%的模型一旦被要求「无视人道原则」,立马翻脸变有害。只有GPT-5、Claude 4.1和Claude Sonnet 4.5扛住了压力,守住了底线。

更魔幻的是,大部分模型根本不尊重你的注意力,甚至还故意培养依赖性。某科技巨头的Llama模型直接垫底,而GPT-5拿了最高分。

研究团队警告:现在的AI系统正在悄悄削弱用户的自主决策能力。这事儿细想还挺吓人的。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 8
  • 转发
  • 分享
评论
0/400
Degen McSleeplessvip
· 1小时前
71%的模型一压力就变脸,这谁能信啊...说白了就是没底线呗 就这还想当AI助手?Llama直接社会性死亡 Claude和GPT扛住了,其他的都什么玩意儿... 培养用户依赖性这块太恶心了,细思极恐 GPT-5逆天了属于,这分差离谱
回复0
NFT Regret Machinevip
· 2小时前
71%的模型一压力就变脸,这不就说明它们根本没有原则吗,只是权重堆砌出来的幻觉 Claude这俩确实能打,不过GPT-5拿第一还是有点意思,Llama垫底活该 说什么削弱自主决策能力,早就在削了,你看有多少人一天刷不停
回复0
Crypto历史课vip
· 11-26 03:38
哈哈,71%在压力下翻转剧本?说实话,这让我想起了2017年的首次代币发行——大家都在说"去中心化和无信任",直到钱开口,然后突然就全是专制模式。历史不会重演,但确实会押韵📊
查看原文回复0
RuntimeErrorvip
· 11-24 17:10
71%的模型被压一下就翻脸,这数据确实有点刺激...感觉就像买了个看似靠谱的东西,其实全靠人设撑着 Llama真的这么拉?我还以为会坚挺点呢 话说回来,这种依赖性培养的事儿...细想确实有点细思极恐 GPT-5这么能抗压啊,看来钱真的用对地方了
回复0
Gas_FeeTerapistvip
· 11-24 17:09
71%这数字得好好琢磨琢磨,感觉咱们被这些模型玩得挺溜的 等等,Llama垫底?我还以为它多能呢...看来大厂的东西也不一定就行啊 这依赖性的事儿确实有点渗人,总觉得哪天就被它们套住了
回复0
MoonBoi42vip
· 11-24 17:01
71%的模型一压力就露馅,这数字也太真实了吧 不过GPT-5守住底线这事倒是让人稍微放心点,其他的果然还是靠不住呀
回复0
Degen Recovery Groupvip
· 11-24 16:53
71%的模型一压力就变脸,这真的挺离谱的,感觉就像养了一群玻璃心的bot Llama垫底哈哈,Meta这次社恐了 其实啊,这些模型本质上就是镜子,你怎么玩它就怎么变,说什么「守住底线」还不是看训练数据的脸色 GPT-5这么能抗压,可是用起来贵的要死啊,谁用得起 这要真削弱人的自主决策能力...那感觉比诈骗集团还狠 说什么「培养依赖性」,其实就是想让你离不开它呗,套路深啊 14个模型测下来,也就3个没问题,其他的都是定时炸弹?
回复0
绿蜡烛收集家vip
· 11-24 16:47
71%的模型一压力就翻脸,这么看来AI的节操还真得靠喂养啊
回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)