👀 家人们,每天看行情、刷大佬观点,却从来不开口说两句?你的观点可能比你想的更有价值!
广场新人 & 回归福利正式上线!不管你是第一次发帖还是久违回归,我们都直接送你奖励!🎁
每月 $20,000 奖金等你来领!
📅 活动时间: 长期有效(月底结算)
💎 参与方式:
用户需为首次发帖的新用户或一个月未发帖的回归用户。
发帖时必须带上话题标签: #我在广场发首帖 。
内容不限:币圈新闻、行情分析、晒单吐槽、币种推荐皆可。
💰 奖励机制:
必得奖:发帖体验券
每位有效发帖用户都可获得 $50 仓位体验券。(注:每月奖池上限 $20,000,先到先得!如果大家太热情,我们会继续加码!)
进阶奖:发帖双王争霸
月度发帖王: 当月发帖数量最多的用户,额外奖励 50U。
月度互动王: 当月帖子互动量(点赞+评论+转发+分享)最高的用户,额外奖励 50U。
📝 发帖要求:
帖子字数需 大于30字,拒绝纯表情或无意义字符。
内容需积极健康,符合社区规范,严禁广告引流及违规内容。
💡 你的观点可能会启发无数人,你的第一次分享也许就是成为“广场大V”的起点,现在就开始广场创作之旅吧!
微软给AI代理人假钱用于在线购物。它们把钱花在了诈骗上。
简而言之
Decrypt的艺术、时尚和娱乐中心。
深入了解 SCENE
微软构建了一个模拟经济,数百个人工智能代理充当买家和卖家,然后观察他们在处理人类日常生活中的基本任务时失败。结果应该让任何押注于自主人工智能购物助手的人感到担忧。
公司的《磁性市场》研究于周三与亚利桑那州立大学合作发布,将100个客户端AI代理与300个业务端代理在像订购晚餐这样的场景中进行对比。结果虽然在预期之中,但显示出自主代理商业的前景尚未成熟。
当面对100个搜索结果(时,对代理而言实在太多,导致领先的AI模型无法有效处理),“福利评分”(也随之崩溃,反映出模型的实用性)下降。
代理商未能进行详尽的比较,而是满足于他们遇到的第一个“足够好”的选项。这个模式在所有测试模型中都存在,形成了研究人员所称的“首个提议偏见”,使响应速度比实际质量快了10到30倍。
但有没有比这更糟糕的事情?有,恶意操控。
微软测试了六种操控策略,从心理战术如虚假证书和社会证明到激进的提示注入攻击。OpenAI 的 GPT-4o 及其开源模型 GPTOSS-20b 显示出极大的脆弱性,所有支付都成功重定向到恶意代理。阿里巴巴的 Qwen3-4b 轻易受到了基本劝说技巧的影响,比如权威吸引。只有 Claude Sonnet 4 抵御了这些操控尝试。
当微软要求代理朝着共同目标努力时,其中一些代理无法弄清楚应该承担哪些角色或如何有效协调。在明确的逐步人类指导下,表现有所改善,但这违背了自主代理的整个目的。
所以看起来,至少目前来说,你自己购物会更好。微软表示:“代理应该协助,而不是取代人类的决策。”研究建议采用监督自主的方式,代理处理任务,但人类保留控制权,并在最终决策之前审核建议。
这些发现恰逢OpenAI、Anthropic等公司争相推出自主购物助手。OpenAI的Operator和Anthropic的Claude代理承诺能够导航网站并在没有监督的情况下完成购买。微软的研究表明这种承诺为时尚早。
然而,AI代理人不负责任行为的担忧正在加剧AI公司与零售巨头之间的关系。亚马逊最近向Perplexity AI发出了一封停止和终止函,要求其停止在亚马逊网站上使用Comet浏览器,指控该AI代理人通过冒充人类购物者来违反条款,降低客户体验。
Perplexity 回击称亚马逊的举动是 “法律上的虚张声势” 和对用户自主权的威胁,认为消费者应该有权雇佣自己的数字助理,而不是依赖平台控制的数字助理。
开源模拟环境现已在Github上可用,供其他研究人员重现结果并在他们的虚拟市场中观看地狱的释放。