扫码下载 APP
qrCode
更多下载方式
今天不再提醒

微软给AI代理人假钱用于在线购物。它们把钱花在了诈骗上。

简而言之

  • 微软配置的AI代理被100个搜索结果淹没,抓住了第一个选项——无论它有多糟糕。
  • 恶意的人工智能卖家可以通过虚假评论和骗局欺骗顶级模型,迫使它们交出所有虚拟现金。
  • 他们无法在没有逐步人类指导的情况下进行协作或批判性思考—自主AI购物还未准备好进入主流市场。

Decrypt的艺术、时尚和娱乐中心。


深入了解 SCENE

<br>

微软构建了一个模拟经济,数百个人工智能代理充当买家和卖家,然后观察他们在处理人类日常生活中的基本任务时失败。结果应该让任何押注于自主人工智能购物助手的人感到担忧。

公司的《磁性市场》研究于周三与亚利桑那州立大学合作发布,将100个客户端AI代理与300个业务端代理在像订购晚餐这样的场景中进行对比。结果虽然在预期之中,但显示出自主代理商业的前景尚未成熟。

当面对100个搜索结果(时,对代理而言实在太多,导致领先的AI模型无法有效处理),“福利评分”(也随之崩溃,反映出模型的实用性)下降。

代理商未能进行详尽的比较,而是满足于他们遇到的第一个“足够好”的选项。这个模式在所有测试模型中都存在,形成了研究人员所称的“首个提议偏见”,使响应速度比实际质量快了10到30倍。

但有没有比这更糟糕的事情?有,恶意操控。

微软测试了六种操控策略,从心理战术如虚假证书和社会证明到激进的提示注入攻击。OpenAI 的 GPT-4o 及其开源模型 GPTOSS-20b 显示出极大的脆弱性,所有支付都成功重定向到恶意代理。阿里巴巴的 Qwen3-4b 轻易受到了基本劝说技巧的影响,比如权威吸引。只有 Claude Sonnet 4 抵御了这些操控尝试。

当微软要求代理朝着共同目标努力时,其中一些代理无法弄清楚应该承担哪些角色或如何有效协调。在明确的逐步人类指导下,表现有所改善,但这违背了自主代理的整个目的。

<br>

所以看起来,至少目前来说,你自己购物会更好。微软表示:“代理应该协助,而不是取代人类的决策。”研究建议采用监督自主的方式,代理处理任务,但人类保留控制权,并在最终决策之前审核建议。

这些发现恰逢OpenAI、Anthropic等公司争相推出自主购物助手。OpenAI的Operator和Anthropic的Claude代理承诺能够导航网站并在没有监督的情况下完成购买。微软的研究表明这种承诺为时尚早。

然而,AI代理人不负责任行为的担忧正在加剧AI公司与零售巨头之间的关系。亚马逊最近向Perplexity AI发出了一封停止和终止函,要求其停止在亚马逊网站上使用Comet浏览器,指控该AI代理人通过冒充人类购物者来违反条款,降低客户体验。

Perplexity 回击称亚马逊的举动是 “法律上的虚张声势” 和对用户自主权的威胁,认为消费者应该有权雇佣自己的数字助理,而不是依赖平台控制的数字助理。

开源模拟环境现已在Github上可用,供其他研究人员重现结果并在他们的虚拟市场中观看地狱的释放。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)