微软给AI代理人假钱用于在线购物。它们把钱花在了诈骗上。

Decrypt

2025-11-07 00:06:01

简而言之

微软配置的AI代理被100个搜索结果淹没，抓住了第一个选项——无论它有多糟糕。
恶意的人工智能卖家可以通过虚假评论和骗局欺骗顶级模型，迫使它们交出所有虚拟现金。
他们无法在没有逐步人类指导的情况下进行协作或批判性思考—自主AI购物还未准备好进入主流市场。

Decrypt的艺术、时尚和娱乐中心。

深入了解 SCENE

<br>

微软构建了一个模拟经济，数百个人工智能代理充当买家和卖家，然后观察他们在处理人类日常生活中的基本任务时失败。结果应该让任何押注于自主人工智能购物助手的人感到担忧。

公司的《磁性市场》研究于周三与亚利桑那州立大学合作发布，将100个客户端AI代理与300个业务端代理在像订购晚餐这样的场景中进行对比。结果虽然在预期之中，但显示出自主代理商业的前景尚未成熟。

当面对100个搜索结果(时，对代理而言实在太多，导致领先的AI模型无法有效处理)，“福利评分”(也随之崩溃，反映出模型的实用性)下降。

代理商未能进行详尽的比较，而是满足于他们遇到的第一个“足够好”的选项。这个模式在所有测试模型中都存在，形成了研究人员所称的“首个提议偏见”，使响应速度比实际质量快了10到30倍。

但有没有比这更糟糕的事情？有，恶意操控。

微软测试了六种操控策略，从心理战术如虚假证书和社会证明到激进的提示注入攻击。OpenAI 的 GPT-4o 及其开源模型 GPTOSS-20b 显示出极大的脆弱性，所有支付都成功重定向到恶意代理。阿里巴巴的 Qwen3-4b 轻易受到了基本劝说技巧的影响，比如权威吸引。只有 Claude Sonnet 4 抵御了这些操控尝试。

当微软要求代理朝着共同目标努力时，其中一些代理无法弄清楚应该承担哪些角色或如何有效协调。在明确的逐步人类指导下，表现有所改善，但这违背了自主代理的整个目的。

<br>

所以看起来，至少目前来说，你自己购物会更好。微软表示：“代理应该协助，而不是取代人类的决策。”研究建议采用监督自主的方式，代理处理任务，但人类保留控制权，并在最终决策之前审核建议。

这些发现恰逢OpenAI、Anthropic等公司争相推出自主购物助手。OpenAI的Operator和Anthropic的Claude代理承诺能够导航网站并在没有监督的情况下完成购买。微软的研究表明这种承诺为时尚早。

然而，AI代理人不负责任行为的担忧正在加剧AI公司与零售巨头之间的关系。亚马逊最近向Perplexity AI发出了一封停止和终止函，要求其停止在亚马逊网站上使用Comet浏览器，指控该AI代理人通过冒充人类购物者来违反条款，降低客户体验。

Perplexity 回击称亚马逊的举动是 “法律上的虚张声势” 和对用户自主权的威胁，认为消费者应该有权雇佣自己的数字助理，而不是依赖平台控制的数字助理。

开源模拟环境现已在Github上可用，供其他研究人员重现结果并在他们的虚拟市场中观看地狱的释放。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论

Decrypt

热门话题查看更多
#GateWeb3LaunchpadBOB上线
4583 热度
#广场发币瓜分千U奖池
4.16万热度
#加密市场回调
24.15万热度
#隐私币生态逆势上涨
8918 热度
#香港首个代币化基金推出
2661 热度

热门 Gate Fun查看更多

1
RWARWA
市值:$4165.51持有人数:1
0.00%
2
狗勾柴犬币
市值:$4175.86持有人数:1
0.00%
3
$BTCXX
市值:$4148.27持有人数:1
0.00%
4
SEGSeven EcoTrade GT
市值:$4236.91持有人数:2
0.17%
5
NPZGqkwdnwdshm
市值:$4972.62持有人数:2
3.68%