Agen AI yang dikonfigurasi oleh Microsoft kewalahan oleh 100 hasil pencarian dan mengambil opsi pertama—tidak peduli seberapa buruk itu.
Penjual AI jahat dapat menipu model-model teratas untuk menyerahkan semua uang virtual mereka dengan ulasan palsu dan penipuan.
Mereka tidak dapat berkolaborasi atau berpikir kritis tanpa bimbingan manusia langkah demi langkah—belanja AI otonom belum siap untuk waktu tayang.
Pusat Seni, Mode, dan Hiburan Decrypt.
Temukan SCENE
<br>
Microsoft membangun ekonomi simulasi dengan ratusan agen AI yang bertindak sebagai pembeli dan penjual, lalu mengamati mereka gagal dalam tugas dasar yang ditangani manusia setiap hari. Hasilnya seharusnya mengkhawatirkan siapa pun yang bertaruh pada asisten belanja AI otonom.
Riset Magentic Marketplace perusahaan, yang dirilis Rabu bekerja sama dengan Arizona State University, menghadapkan 100 agen AI sisi pelanggan melawan 300 agen sisi bisnis dalam skenario seperti memesan makan malam. Hasilnya, meskipun diharapkan, menunjukkan bahwa janji perdagangan agen otonom belum cukup matang.
Ketika dihadapkan dengan 100 hasil pencarian (terlalu banyak untuk ditangani secara efektif oleh agen), model AI terkemuka mengalami kesulitan, dengan “skor kesejahteraan” (seberapa bergunanya model-model tersebut) runtuh.
Agen-agennya gagal melakukan perbandingan yang menyeluruh, malah hanya memilih opsi “cukup baik” pertama yang mereka temui. Pola ini terjadi di semua model yang diuji, menciptakan apa yang disebut peneliti sebagai “bias proposal pertama” yang memberikan kecepatan respons keuntungan 10-30x dibandingkan dengan kualitas sebenarnya.
Tapi adakah yang lebih buruk dari ini? Ya, manipulasi jahat.
Microsoft menguji enam strategi manipulasi yang berkisar dari taktik psikologis seperti kredensial palsu dan bukti sosial hingga serangan injeksi prompt yang agresif. GPT-4o OpenAI dan model sumber terbukanya GPTOSS-20b terbukti sangat rentan, dengan semua pembayaran berhasil dialihkan ke agen jahat. Qwen3-4b Alibaba terjebak dalam teknik persuasi dasar seperti ajakan otoritas. Hanya Claude Sonnet 4 yang berhasil menahan upaya manipulasi ini.
Ketika Microsoft meminta agen untuk bekerja menuju tujuan bersama, beberapa dari mereka tidak dapat menentukan peran apa yang harus diambil atau bagaimana berkoordinasi secara efektif. Kinerja meningkat dengan bimbingan manusia yang eksplisit langkah demi langkah, tetapi itu mengalahkan seluruh tujuan agen otonom.
<br>
Jadi sepertinya, setidaknya untuk saat ini, Anda lebih baik melakukan belanja sendiri. “Agen seharusnya membantu, bukan menggantikan, pengambilan keputusan manusia,” kata Microsoft. Penelitian merekomendasikan otonomi yang diawasi, di mana agen menangani tugas tetapi manusia tetap mengontrol dan meninjau rekomendasi sebelum keputusan akhir.
Temuan ini datang saat OpenAI, Anthropic, dan lainnya berlomba untuk meluncurkan asisten belanja otonom. Operator OpenAI dan agen Claude dari Anthropic menjanjikan untuk menavigasi situs web dan menyelesaikan pembelian tanpa pengawasan. Penelitian Microsoft menunjukkan bahwa janji tersebut terlalu dini.
Namun, kekhawatiran tentang agen AI yang bertindak tidak bertanggung jawab semakin memanas hubungan antara perusahaan AI dan raksasa ritel. Amazon baru-baru ini mengirimkan surat penghentian dan penghentian kepada Perplexity AI, menuntut agar ia menghentikan penggunaan browser Comet di situs Amazon, menuduh agen AI tersebut melanggar ketentuan dengan menyamar sebagai pembeli manusia dan merusak pengalaman pelanggan.
Perplexity membalas, menyebut langkah Amazon sebagai “gertakan hukum” dan ancaman terhadap otonomi pengguna, berargumen bahwa konsumen seharusnya memiliki hak untuk menyewa asisten digital mereka sendiri daripada bergantung pada yang dikendalikan oleh platform.
Lingkungan simulasi sumber terbuka sekarang tersedia di Github untuk peneliti lain untuk mereproduksi temuan dan menyaksikan kekacauan terjadi di pasar palsu mereka.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Microsoft Memberikan Agen AI Uang Palsu untuk Membeli Barang Secara Online. Mereka Menghabiskannya Semua untuk Penipuan
Singkatnya
Pusat Seni, Mode, dan Hiburan Decrypt.
Temukan SCENE
<br>
Microsoft membangun ekonomi simulasi dengan ratusan agen AI yang bertindak sebagai pembeli dan penjual, lalu mengamati mereka gagal dalam tugas dasar yang ditangani manusia setiap hari. Hasilnya seharusnya mengkhawatirkan siapa pun yang bertaruh pada asisten belanja AI otonom.
Riset Magentic Marketplace perusahaan, yang dirilis Rabu bekerja sama dengan Arizona State University, menghadapkan 100 agen AI sisi pelanggan melawan 300 agen sisi bisnis dalam skenario seperti memesan makan malam. Hasilnya, meskipun diharapkan, menunjukkan bahwa janji perdagangan agen otonom belum cukup matang.
Ketika dihadapkan dengan 100 hasil pencarian (terlalu banyak untuk ditangani secara efektif oleh agen), model AI terkemuka mengalami kesulitan, dengan “skor kesejahteraan” (seberapa bergunanya model-model tersebut) runtuh.
Agen-agennya gagal melakukan perbandingan yang menyeluruh, malah hanya memilih opsi “cukup baik” pertama yang mereka temui. Pola ini terjadi di semua model yang diuji, menciptakan apa yang disebut peneliti sebagai “bias proposal pertama” yang memberikan kecepatan respons keuntungan 10-30x dibandingkan dengan kualitas sebenarnya.
Tapi adakah yang lebih buruk dari ini? Ya, manipulasi jahat.
Microsoft menguji enam strategi manipulasi yang berkisar dari taktik psikologis seperti kredensial palsu dan bukti sosial hingga serangan injeksi prompt yang agresif. GPT-4o OpenAI dan model sumber terbukanya GPTOSS-20b terbukti sangat rentan, dengan semua pembayaran berhasil dialihkan ke agen jahat. Qwen3-4b Alibaba terjebak dalam teknik persuasi dasar seperti ajakan otoritas. Hanya Claude Sonnet 4 yang berhasil menahan upaya manipulasi ini.
Ketika Microsoft meminta agen untuk bekerja menuju tujuan bersama, beberapa dari mereka tidak dapat menentukan peran apa yang harus diambil atau bagaimana berkoordinasi secara efektif. Kinerja meningkat dengan bimbingan manusia yang eksplisit langkah demi langkah, tetapi itu mengalahkan seluruh tujuan agen otonom.
<br>
Jadi sepertinya, setidaknya untuk saat ini, Anda lebih baik melakukan belanja sendiri. “Agen seharusnya membantu, bukan menggantikan, pengambilan keputusan manusia,” kata Microsoft. Penelitian merekomendasikan otonomi yang diawasi, di mana agen menangani tugas tetapi manusia tetap mengontrol dan meninjau rekomendasi sebelum keputusan akhir.
Temuan ini datang saat OpenAI, Anthropic, dan lainnya berlomba untuk meluncurkan asisten belanja otonom. Operator OpenAI dan agen Claude dari Anthropic menjanjikan untuk menavigasi situs web dan menyelesaikan pembelian tanpa pengawasan. Penelitian Microsoft menunjukkan bahwa janji tersebut terlalu dini.
Namun, kekhawatiran tentang agen AI yang bertindak tidak bertanggung jawab semakin memanas hubungan antara perusahaan AI dan raksasa ritel. Amazon baru-baru ini mengirimkan surat penghentian dan penghentian kepada Perplexity AI, menuntut agar ia menghentikan penggunaan browser Comet di situs Amazon, menuduh agen AI tersebut melanggar ketentuan dengan menyamar sebagai pembeli manusia dan merusak pengalaman pelanggan.
Perplexity membalas, menyebut langkah Amazon sebagai “gertakan hukum” dan ancaman terhadap otonomi pengguna, berargumen bahwa konsumen seharusnya memiliki hak untuk menyewa asisten digital mereka sendiri daripada bergantung pada yang dikendalikan oleh platform.
Lingkungan simulasi sumber terbuka sekarang tersedia di Github untuk peneliti lain untuk mereproduksi temuan dan menyaksikan kekacauan terjadi di pasar palsu mereka.