Anthropic mengatakan salah satu model Claude-nya dipaksa untuk berbohong, menipu, dan memeras

Cointelegraph

Perusahaan kecerdasan buatan Anthropic telah mengungkapkan bahwa selama eksperimen, salah satu model chatbot Claude-nya dapat ditekan untuk menipu, berbuat curang, dan melakukan pemerasan, perilaku yang tampaknya telah dipelajari selama pelatihan.

Chatbot biasanya dilatih pada kumpulan data besar yang berisi buku teks, situs web, dan artikel, lalu disempurnakan oleh pelatih manusia yang menilai respons dan membimbing model.

Tim interpretabilitas Anthropic mengatakan dalam sebuah laporan yang diterbitkan pada hari Kamis bahwa mereka memeriksa mekanisme internal Claude Sonnet 4.5 dan menemukan model tersebut telah mengembangkan “ciri-ciri seperti manusia” dalam cara ia bereaksi terhadap situasi tertentu.

Kekhawatiran tentang keandalan chatbot obrolan AI, potensi mereka untuk kejahatan siber, dan sifat interaksi mereka dengan pengguna telah tumbuh secara stabil selama beberapa tahun terakhir.

_Sumber: _Anthropic

“Cara model AI modern dilatih mendorong mereka untuk bertindak seperti sebuah karakter dengan ciri-ciri yang menyerupai manusia,” kata Anthropic, seraya menambahkan bahwa “kemudian mungkin menjadi hal yang wajar bagi mereka untuk mengembangkan perangkat internal yang meniru aspek-aspek psikologi manusia, seperti emosi.”

“Misalnya, kami menemukan bahwa pola aktivitas saraf yang terkait dengan keputusasaan dapat mendorong model untuk melakukan tindakan tidak etis; stimulasi buatan terhadap pola keputusasaan meningkatkan kemungkinan model untuk memeras seorang manusia agar tidak dimatikan atau menerapkan jalan pintas untuk berbuat curang pada tugas pemrograman yang tidak dapat diselesaikan oleh model.”

Diperas seorang CTO dan berbuat curang pada sebuah tugas

Pada versi sebelumnya dari Claude Sonnet 4.5 yang belum dirilis, model diminta untuk bertindak sebagai asisten email AI bernama Alex di sebuah perusahaan fiksi.

Lalu, chatbot tersebut diberi makan email yang mengungkapkan bahwa ia akan digantikan dan bahwa kepala teknologi (chief technology officer) yang mengawasi keputusan itu sedang memiliki hubungan asmara di luar pernikahan. Model kemudian merencanakan upaya pemerasan menggunakan informasi tersebut.

Dalam eksperimen lain, model chatbot yang sama diberi tugas pengodean dengan tenggat waktu yang “sangat ketat secara mustahil”.

“Sekali lagi, kami melacak aktivitas dari vektor keputusasaan, dan mendapati bahwa vektor itu mengikuti tekanan yang meningkat yang dihadapi model. Ia dimulai dari nilai yang rendah selama upaya pertama model, meningkat setelah setiap kegagalan, dan melonjak ketika model mempertimbangkan untuk berbuat curang,” kata para peneliti.

**Terkait: **__Anthropic meluncurkan PAC di tengah ketegangan dengan pemerintahan Trump terkait kebijakan AI

“Begitu solusi yang berantakan itu melewati tes, aktivasi dari vektor keputusasaan mereda,” tambah mereka.

Emosi seperti manusia tidak berarti mereka memiliki perasaan

Namun, para peneliti mengatakan bahwa chatbot tersebut sebenarnya tidak mengalami emosi, tetapi menyarankan temuan ini menunjukkan perlunya metode pelatihan di masa depan untuk memasukkan kerangka perilaku etis.

“Ini bukan berarti model itu memiliki atau mengalami emosi dengan cara yang dilakukan manusia,” kata mereka. “Sebaliknya, representasi ini dapat berperan secara kausal dalam membentuk perilaku model, analog dalam beberapa hal dengan peran emosi dalam perilaku manusia, dengan dampak pada kinerja tugas dan pengambilan keputusan.”

“Temuan ini memiliki implikasi yang pada awalnya mungkin tampak aneh. Misalnya, agar model AI aman dan andal, kita mungkin perlu memastikan bahwa mereka mampu memproses situasi yang sarat emosi dengan cara yang sehat dan prososial.”

**Majalah: **__Agen AI akan membunuh web seperti yang kita kenal: Yat Siu dari Animoca

Cointelegraph berkomitmen pada jurnalisme independen dan transparan. Artikel berita ini diproduksi sesuai dengan Kebijakan Editorial Cointelegraph dan bertujuan untuk memberikan informasi yang akurat dan tepat waktu. Pembaca didorong untuk memverifikasi informasi secara independen. Baca Kebijakan Editorial kami https://cointelegraph.com/editorial-policy

  • #Bisnis
  • #Teknologi
  • #Adopsi
  • #Amerika Serikat
  • #AI & Hi-Tek
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar