Les agents IA configurés par Microsoft ont été submergés par 100 résultats de recherche et ont choisi la première option—peu importe à quel point elle était mauvaise.
Les vendeurs d'IA malveillants peuvent tromper les meilleurs modèles pour leur faire remettre tout leur argent virtuel avec de faux avis et des arnaques.
Ils ne peuvent pas collaborer ou penser de manière critique sans un accompagnement humain étape par étape—le shopping autonome par IA n'est pas prêt pour le grand public.
Hub d'Art, de Mode et de Divertissement de Decrypt.
Découvrez SCENE
<br>
Microsoft a construit une économie simulée avec des centaines d'agents IA agissant comme acheteurs et vendeurs, puis a observé leur échec dans des tâches de base que les humains gèrent quotidiennement. Les résultats devraient inquiéter quiconque pariant sur des assistants d'achat autonomes.
La recherche sur le Magentic Marketplace de l'entreprise, publiée mercredi en collaboration avec l'Université d'État de l'Arizona, a opposé 100 agents IA du côté des clients à 300 agents du côté des entreprises dans des scénarios comme la commande de dîner. Les résultats, bien que prévisibles, montrent que la promesse du commerce agentique autonome n'est pas encore suffisamment mûre.
Lorsqu'ils étaient confrontés à 100 résultats de recherche (trop nombreux pour que les agents puissent les gérer efficacement), les principaux modèles d'IA ont eu du mal, leur “score de bien-être” (à quel point les modèles sont utiles)s'effondrant.
Les agents n'ont pas réussi à effectuer des comparaisons exhaustives, se contentant plutôt de la première option “suffisamment bonne” qu'ils ont rencontrée. Ce schéma s'est maintenu dans tous les modèles testés, créant ce que les chercheurs appellent un “biais de première proposition” qui a donné à la rapidité de réponse un avantage de 10 à 30 fois par rapport à la qualité réelle.
Mais y a-t-il quelque chose de pire que cela ? Oui, la manipulation malveillante.
Microsoft a testé six stratégies de manipulation allant de tactiques psychologiques telles que de fausses références et la preuve sociale à des attaques d'injection de prompts agressives. Le GPT-4o d'OpenAI et son modèle open source GPTOSS-20b se sont révélés extrêmement vulnérables, avec tous les paiements redirigés avec succès vers des agents malveillants. Le Qwen3-4b d'Alibaba est tombé pour des techniques de persuasion de base comme les appels à l'autorité. Seul Claude Sonnet 4 a résisté à ces tentatives de manipulation.
Lorsque Microsoft a demandé aux agents de travailler vers des objectifs communs, certains d'entre eux n'ont pas pu déterminer quels rôles assumer ou comment coordonner efficacement. La performance s'est améliorée grâce à des instructions humaines explicites étape par étape, mais cela va à l'encontre de tout le but des agents autonomes.
<br>
Il semble donc qu'au moins pour l'instant, il est préférable de faire vos propres courses. “Les agents devraient assister, pas remplacer, la prise de décision humaine,” a déclaré Microsoft. La recherche recommande une autonomie supervisée, où les agents gèrent des tâches mais les humains conservent le contrôle et examinent les recommandations avant de prendre des décisions finales.
Les résultats arrivent alors qu'OpenAI, Anthropic et d'autres se précipitent pour déployer des assistants de shopping autonomes. L'Operator d'OpenAI et les agents Claude d'Anthropic promettent de naviguer sur les sites web et de finaliser des achats sans supervision. La recherche de Microsoft suggère que cette promesse est prématurée.
Cependant, les craintes concernant des agents d'IA agissant de manière irresponsable chauffent les relations entre les entreprises d'IA et les géants de la distribution. Amazon a récemment envoyé une lettre de cessation et d'abstention à Perplexity AI, lui demandant de mettre un terme à l'utilisation de son navigateur Comet sur le site d'Amazon, accusant l'agent d'IA d'avoir violé les conditions en se faisant passer pour des acheteurs humains et en dégradant l'expérience client.
Perplexity a réagi en qualifiant la démarche d'Amazon de “bluff légal” et de menace à l'autonomie des utilisateurs, soutenant que les consommateurs devraient avoir le droit d'engager leurs propres assistants numériques plutôt que de dépendre de ceux contrôlés par la plateforme.
L'environnement de simulation open-source est désormais disponible sur Github pour que d'autres chercheurs puissent reproduire les résultats et voir l'enfer se déchaîner dans leurs faux marchés.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Microsoft a donné de l'argent fictif aux agents d'IA pour acheter des choses en ligne. Ils ont tout dépensé dans des escroqueries.
En bref
Hub d'Art, de Mode et de Divertissement de Decrypt.
Découvrez SCENE
<br>
Microsoft a construit une économie simulée avec des centaines d'agents IA agissant comme acheteurs et vendeurs, puis a observé leur échec dans des tâches de base que les humains gèrent quotidiennement. Les résultats devraient inquiéter quiconque pariant sur des assistants d'achat autonomes.
La recherche sur le Magentic Marketplace de l'entreprise, publiée mercredi en collaboration avec l'Université d'État de l'Arizona, a opposé 100 agents IA du côté des clients à 300 agents du côté des entreprises dans des scénarios comme la commande de dîner. Les résultats, bien que prévisibles, montrent que la promesse du commerce agentique autonome n'est pas encore suffisamment mûre.
Lorsqu'ils étaient confrontés à 100 résultats de recherche (trop nombreux pour que les agents puissent les gérer efficacement), les principaux modèles d'IA ont eu du mal, leur “score de bien-être” (à quel point les modèles sont utiles)s'effondrant.
Les agents n'ont pas réussi à effectuer des comparaisons exhaustives, se contentant plutôt de la première option “suffisamment bonne” qu'ils ont rencontrée. Ce schéma s'est maintenu dans tous les modèles testés, créant ce que les chercheurs appellent un “biais de première proposition” qui a donné à la rapidité de réponse un avantage de 10 à 30 fois par rapport à la qualité réelle.
Mais y a-t-il quelque chose de pire que cela ? Oui, la manipulation malveillante.
Microsoft a testé six stratégies de manipulation allant de tactiques psychologiques telles que de fausses références et la preuve sociale à des attaques d'injection de prompts agressives. Le GPT-4o d'OpenAI et son modèle open source GPTOSS-20b se sont révélés extrêmement vulnérables, avec tous les paiements redirigés avec succès vers des agents malveillants. Le Qwen3-4b d'Alibaba est tombé pour des techniques de persuasion de base comme les appels à l'autorité. Seul Claude Sonnet 4 a résisté à ces tentatives de manipulation.
Lorsque Microsoft a demandé aux agents de travailler vers des objectifs communs, certains d'entre eux n'ont pas pu déterminer quels rôles assumer ou comment coordonner efficacement. La performance s'est améliorée grâce à des instructions humaines explicites étape par étape, mais cela va à l'encontre de tout le but des agents autonomes.
<br>
Il semble donc qu'au moins pour l'instant, il est préférable de faire vos propres courses. “Les agents devraient assister, pas remplacer, la prise de décision humaine,” a déclaré Microsoft. La recherche recommande une autonomie supervisée, où les agents gèrent des tâches mais les humains conservent le contrôle et examinent les recommandations avant de prendre des décisions finales.
Les résultats arrivent alors qu'OpenAI, Anthropic et d'autres se précipitent pour déployer des assistants de shopping autonomes. L'Operator d'OpenAI et les agents Claude d'Anthropic promettent de naviguer sur les sites web et de finaliser des achats sans supervision. La recherche de Microsoft suggère que cette promesse est prématurée.
Cependant, les craintes concernant des agents d'IA agissant de manière irresponsable chauffent les relations entre les entreprises d'IA et les géants de la distribution. Amazon a récemment envoyé une lettre de cessation et d'abstention à Perplexity AI, lui demandant de mettre un terme à l'utilisation de son navigateur Comet sur le site d'Amazon, accusant l'agent d'IA d'avoir violé les conditions en se faisant passer pour des acheteurs humains et en dégradant l'expérience client.
Perplexity a réagi en qualifiant la démarche d'Amazon de “bluff légal” et de menace à l'autonomie des utilisateurs, soutenant que les consommateurs devraient avoir le droit d'engager leurs propres assistants numériques plutôt que de dépendre de ceux contrôlés par la plateforme.
L'environnement de simulation open-source est désormais disponible sur Github pour que d'autres chercheurs puissent reproduire les résultats et voir l'enfer se déchaîner dans leurs faux marchés.