Microsoft, AI ajanlarına çevrimiçi alışveriş yapmaları için sahte para verdi. Hepsini dolandırıcılıklara harcadılar.

Decrypt

2025-11-07 00:06:01

Kısaca

Microsoft tarafından yapılandırılan AI ajanları 100 arama sonucuyla başa çıkmakta zorlandılar ve ne kadar kötü olursa olsun ilk seçeneği aldılar.
Kötü niyetli AI satıcıları, sahte yorumlar ve dolandırıcılıklar ile en iyi modelleri sanal paralarını teslim etmeye kandırabilir.
Adım adım insan rehberliği olmadan iş birliği yapamazlar ya da eleştirel düşünemezler—otonom AI alışverişi ana zaman için hazır değil.

Decrypt'in Sanat, Moda ve Eğlence Merkezi.

SCENE'i Keşfedin

<br>

Microsoft, alıcı ve satıcı olarak hareket eden yüzlerce AI ajanıyla simüle edilmiş bir ekonomi kurdu ve ardından onların insanların günlük olarak hallettiği temel görevlerde başarısız olduklarını izledi. Sonuçlar, otonom AI alışveriş asistanlarına bahis yapan herkes için endişe verici olmalıdır.

Şirketin Arizona Eyalet Üniversitesi ile iş birliği içinde Çarşamba günü yayımladığı Magentic Marketplace araştırması, 100 müşteri tarafı AI ajanını 300 iş tarafı ajanına karşı akşam yemeği siparişi gibi senaryolarda karşılaştırdı. Beklendiği gibi sonuçlar, otonom ajan ticaretinin henüz yeterince olgunlaşmadığını göstermektedir.

100 arama sonuçlarıyla karşılaştıklarında (ajanların etkili bir şekilde başa çıkması için fazla ), önde gelen AI modelleri zorlandı ve “refah puanı” (modellerin ne kadar faydalı olduğu )çöktü.

Ajanlar kapsamlı karşılaştırmalar yapmayı başaramadı ve bunun yerine karşılaştıkları ilk “yeterince iyi” seçeneğiyle yetindiler. Bu desen, test edilen tüm modellerde geçerli oldu ve araştırmacıların “ilk teklif yanlılığı” olarak adlandırdığı durumu oluşturdu. Bu durum, yanıt hızına gerçek kaliteden 10-30 kat daha fazla bir avantaj sağladı.

Ama bunun daha kötü bir şey var mı? Evet, kötü niyetli manipülasyon.

Microsoft, sahte kimlikler ve sosyal kanıt gibi psikolojik taktiklerden saldırgan ikna enjeksiyon saldırılarına kadar altı manipülasyon stratejisi test etti. OpenAI'nin GPT-4o ve açık kaynak modeli GPTOSS-20b son derece savunmasız çıktı ve tüm ödemeler başarılı bir şekilde kötü niyetli ajanlara yönlendirildi. Alibaba'nın Qwen3-4b, otorite çağrıları gibi temel ikna tekniklerine kapıldı. Sadece Claude Sonnet 4 bu manipülasyon girişimlerine karşı direndi.

Microsoft, ajanlardan ortak hedefler doğrultusunda çalışmasını istediğinde, bazıları hangi rolleri üstleneceklerini ya da nasıl etkili bir şekilde koordine olacaklarını çözemedi. Performans, açık adım adım insan rehberliği ile iyileşti, ancak bu, otonom ajanların tam amacını boşa çıkarıyor.

\u003cbr\u003e

Görünüşe göre, en azından şimdilik, kendi alışverişinizi yapmanız daha iyi. “Ajanlar, insan karar verme sürecinin yerini almamalı, ona yardımcı olmalıdır,” dedi Microsoft. Araştırma, ajansların görevleri üstlendiği ancak insanların kontrolü sürdürdüğü ve nihai kararlar öncesinde önerileri gözden geçirdiği denetimli otonomluğu öneriyor.

Bulgular, OpenAI, Anthropic ve diğerlerinin otonom alışveriş asistanlarını dağıtma yarışı içinde olduğu bir dönemde geliyor. OpenAI'nin Operator ve Anthropic'in Claude ajansları, web sitelerini gezip denetim olmaksızın satın alma işlemlerini tamamlayacakları vaadini sunuyor. Microsoft'un araştırması bu vaadin erken olduğunu öne sürüyor.

Ancak, AI ajanlarının sorumsuzca hareket etme korkuları, AI şirketleri ile perakende devleri arasındaki ilişkiyi ısıtıyor. Amazon, Perplexity AI'ya, Comet tarayıcısının Amazon'un sitesinde kullanımını durdurmasını talep eden bir ihtarname gönderdi ve AI ajanını insan alıcılarını taklit etmek ve müşteri deneyimini bozmakla suçladı.

Perplexity, Amazon'ın hamlesini “hukuki ciddiyet” olarak nitelendirerek, kullanıcı otonomisine bir tehdit olarak geri yanıt verdi ve tüketicilerin platform kontrolündeki dijital asistanlara dayanmak yerine kendi dijital asistanlarını işe alma hakkına sahip olması gerektiğini savundu.

Açık kaynaklı simülasyon ortamı, diğer araştırmacıların bulguları yeniden üretmesi ve sahte pazarlarında cehennemin serbest bırakılmasını izlemesi için artık Github'da mevcuttur.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.