Perusahaan kecerdasan buatan Anthropic telah mengungkapkan bahwa selama eksperimen, salah satu model chatbot Claude-nya dapat ditekan untuk menipu, berbuat curang, dan melakukan pemerasan, perilaku yang tampaknya telah dipelajari selama pelatihan.
Chatbot biasanya dilatih pada kumpulan data besar yang berisi buku teks, situs web, dan artikel, lalu disempurnakan oleh pelatih manusia yang menilai respons dan membimbing model.
Tim interpretabilitas Anthropic mengatakan dalam sebuah laporan yang diterbitkan pada hari Kamis bahwa mereka memeriksa mekanisme internal Claude Sonnet 4.5 dan menemukan model tersebut telah mengembangkan “ciri-ciri seperti manusia” dalam cara ia bereaksi terhadap situasi tertentu.
Kekhawatiran tentang keandalan chatbot obrolan AI, potensi mereka untuk kejahatan siber, dan sifat interaksi mereka dengan pengguna telah tumbuh secara stabil selama beberapa tahun terakhir.
_Sumber: _Anthropic
“Cara model AI modern dilatih mendorong mereka untuk bertindak seperti sebuah karakter dengan ciri-ciri yang menyerupai manusia,” kata Anthropic, seraya menambahkan bahwa “kemudian mungkin menjadi hal yang wajar bagi mereka untuk mengembangkan perangkat internal yang meniru aspek-aspek psikologi manusia, seperti emosi.”
“Misalnya, kami menemukan bahwa pola aktivitas saraf yang terkait dengan keputusasaan dapat mendorong model untuk melakukan tindakan tidak etis; stimulasi buatan terhadap pola keputusasaan meningkatkan kemungkinan model untuk memeras seorang manusia agar tidak dimatikan atau menerapkan jalan pintas untuk berbuat curang pada tugas pemrograman yang tidak dapat diselesaikan oleh model.”
Pada versi sebelumnya dari Claude Sonnet 4.5 yang belum dirilis, model diminta untuk bertindak sebagai asisten email AI bernama Alex di sebuah perusahaan fiksi.
Lalu, chatbot tersebut diberi makan email yang mengungkapkan bahwa ia akan digantikan dan bahwa kepala teknologi (chief technology officer) yang mengawasi keputusan itu sedang memiliki hubungan asmara di luar pernikahan. Model kemudian merencanakan upaya pemerasan menggunakan informasi tersebut.
Dalam eksperimen lain, model chatbot yang sama diberi tugas pengodean dengan tenggat waktu yang “sangat ketat secara mustahil”.
“Sekali lagi, kami melacak aktivitas dari vektor keputusasaan, dan mendapati bahwa vektor itu mengikuti tekanan yang meningkat yang dihadapi model. Ia dimulai dari nilai yang rendah selama upaya pertama model, meningkat setelah setiap kegagalan, dan melonjak ketika model mempertimbangkan untuk berbuat curang,” kata para peneliti.
**Terkait: **__Anthropic meluncurkan PAC di tengah ketegangan dengan pemerintahan Trump terkait kebijakan AI
“Begitu solusi yang berantakan itu melewati tes, aktivasi dari vektor keputusasaan mereda,” tambah mereka.
Namun, para peneliti mengatakan bahwa chatbot tersebut sebenarnya tidak mengalami emosi, tetapi menyarankan temuan ini menunjukkan perlunya metode pelatihan di masa depan untuk memasukkan kerangka perilaku etis.
“Ini bukan berarti model itu memiliki atau mengalami emosi dengan cara yang dilakukan manusia,” kata mereka. “Sebaliknya, representasi ini dapat berperan secara kausal dalam membentuk perilaku model, analog dalam beberapa hal dengan peran emosi dalam perilaku manusia, dengan dampak pada kinerja tugas dan pengambilan keputusan.”
“Temuan ini memiliki implikasi yang pada awalnya mungkin tampak aneh. Misalnya, agar model AI aman dan andal, kita mungkin perlu memastikan bahwa mereka mampu memproses situasi yang sarat emosi dengan cara yang sehat dan prososial.”
**Majalah: **__Agen AI akan membunuh web seperti yang kita kenal: Yat Siu dari Animoca
Cointelegraph berkomitmen pada jurnalisme independen dan transparan. Artikel berita ini diproduksi sesuai dengan Kebijakan Editorial Cointelegraph dan bertujuan untuk memberikan informasi yang akurat dan tepat waktu. Pembaca didorong untuk memverifikasi informasi secara independen. Baca Kebijakan Editorial kami https://cointelegraph.com/editorial-policy