微软给AI代理人假钱用于在线购物。它们把钱花在了诈骗上。

Decrypt

2025-11-07 00:06:01

简而言之

微软配置的AI代理被100个搜索结果淹没，抓住了第一个选项——无论它有多糟糕。
恶意的人工智能卖家可以通过虚假评论和骗局欺骗顶级模型，迫使它们交出所有虚拟现金。
他们无法在没有逐步人类指导的情况下进行协作或批判性思考—自主AI购物还未准备好进入主流市场。

Decrypt的艺术、时尚和娱乐中心。

深入了解 SCENE

微软构建了一个模拟经济，数百个人工智能代理充当买家和卖家，然后观察他们在处理人类日常生活中的基本任务时失败。结果应该让任何押注于自主人工智能购物助手的人感到担忧。

公司的《磁性市场》研究于周三与亚利桑那州立大学合作发布，将100个客户端AI代理与300个业务端代理在像订购晚餐这样的场景中进行对比。结果虽然在预期之中，但显示出自主代理商业的前景尚未成熟。

当面对100个搜索结果(时，对代理而言实在太多，导致领先的AI模型无法有效处理)，“福利评分”(也随之崩溃，反映出模型的实用性)下降。

代理商未能进行详尽的比较，而是满足于他们遇到的第一个“足够好”的选项。这个模式在所有测试模型中都存在，形成了研究人员所称的“首个提议偏见”，使响应速度比实际质量快了10到30倍。

但有没有比这更糟糕的事情？有，恶意操控。

微软测试了六种操控策略，从心理战术如虚假证书和社会证明到激进的提示注入攻击。OpenAI 的 GPT-4o 及其开源模型 GPTOSS-20b 显示出极大的脆弱性，所有支付都成功重定向到恶意代理。阿里巴巴的 Qwen3-4b 轻易受到了基本劝说技巧的影响，比如权威吸引。只有 Claude Sonnet 4 抵御了这些操控尝试。

当微软要求代理朝着共同目标努力时，其中一些代理无法弄清楚应该承担哪些角色或如何有效协调。在明确的逐步人类指导下，表现有所改善，但这违背了自主代理的整个目的。

所以看起来，至少目前来说，你自己购物会更好。微软表示：“代理应该协助，而不是取代人类的决策。”研究建议采用监督自主的方式，代理处理任务，但人类保留控制权，并在最终决策之前审核建议。

这些发现恰逢OpenAI、Anthropic等公司争相推出自主购物助手。OpenAI的Operator和Anthropic的Claude代理承诺能够导航网站并在没有监督的情况下完成购买。微软的研究表明这种承诺为时尚早。

然而，AI代理人不负责任行为的担忧正在加剧AI公司与零售巨头之间的关系。亚马逊最近向Perplexity AI发出了一封停止和终止函，要求其停止在亚马逊网站上使用Comet浏览器，指控该AI代理人通过冒充人类购物者来违反条款，降低客户体验。

Perplexity 回击称亚马逊的举动是 “法律上的虚张声势” 和对用户自主权的威胁，认为消费者应该有权雇佣自己的数字助理，而不是依赖平台控制的数字助理。

开源模拟环境现已在Github上可用，供其他研究人员重现结果并在他们的虚拟市场中观看地狱的释放。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论

Decrypt

热门话题查看更多
#成长值抽奖赢iPhone17和周边
26.27万热度
#十二月行情展望
5.8万热度
#广场发帖领$50
7507 热度
#LINKETF将上线
7750 热度
#百倍币种分享
8378 热度

热门 Gate Fun查看更多

1
MKIMakkah Koi Inv
市值:$3846.21持有人数:30
0.04%
2
GNANAGateNana
市值:$4406.33持有人数:5
2.73%
3
GXNGurufin
市值:$3912.21持有人数:4
1.70%
4
BDBullDog
市值:$3655.87持有人数:1
0.67%
5
FKASkaspaflayt
市值:$3589.65持有人数:1
0.00%