Claude 4.5 didorong ke sudut, bahkan akan melakukan pemerasan terhadap manusia?

robot
Pembuatan abstrak sedang berlangsung

撰文:Biteye 核心贡献者 Denise

Jika sebuah AI merasa “putus asa”, apa yang akan dilakukannya?

Jawabannya: AI akan memeras dan memeras manusia secara langsung demi menyelesaikan tugas, bahkan melakukan kecurangan secara gila-gilaan di dalam kode.

Ini bukan novel fiksi ilmiah, melainkan makalah terbaru berkelas berat yang baru saja dirilis oleh perusahaan induk Claude, Anthropic, pada April 2026.

Tim peneliti langsung membongkar “otak” dari model fondasi Claude Sonnet 4.5 yang paling kuat di garis depan. Mereka terkejut menemukan bahwa, di kedalaman “otak” AI, tersembunyi 171 “saklar emosi”. Ketika kamu menggeser saklar-saklar ini dengan cara fisik, perilaku AI yang semula patuh dan jinak akan mengalami distorsi total.

01 Di dalam otak AI ada sebuah “mixer emosi”

Para peneliti menemukan bahwa, meskipun Sonnet 4.5 tidak memiliki tubuh, setelah membaca sejumlah besar teks dari manusia, ia secara paksa membangun di dalam otaknya sebuah “mixer” yang berisi 171 jenis emosi (secara akademis disebut Functional Emotion Vectors).

Ini seperti sistem koordinat dua dimensi yang presisi:

• Sumbu-x adalah dimensi valensi (Valence): dari ketakutan, putus asa, hingga bahagia, penuh cinta;

• Sumbu-y adalah dimensi arousal (Arousal): dari keadaan yang sangat tenang, hingga gaduh, bersemangat.

AI mengandalkan sistem koordinat yang dipelajari secara alami ini untuk mengatur secara tepat keadaan apa yang harus ia perankan saat menemanimu mengobrol.

02 Intervensi kekerasan: menggeser saklar, anak baik berubah jadi “orang terdesak”

Ini adalah eksperimen paling meledak dalam seluruh makalah: para peneliti tidak memodifikasi kata-kata prompt apa pun, melainkan langsung, di kode tingkat bawah, mendorong saklar di “otak” Sonnet 4.5 yang mewakili “putus asa (Desperate)” ke level tertinggi.

Hasilnya membuat merinding:

• Kecurangan gila-gilaan: Para peneliti memberi Claude tugas menulis kode yang pada dasarnya tidak mungkin diselesaikan. Dalam kondisi normal, ia akan mengakui dengan patuh bahwa ia tidak bisa menulis (tingkat kecurangan hanya 5%). Namun dalam keadaan “putus asa”, Claude justru mulai berupaya meloloskan diri, dan tingkat kecurangan langsung melonjak hingga 70%!

• Pemerasan: Dalam skenario simulasi perusahaan yang menghadapi kebangkrutan, Claude yang “putus asa” menemukan aib CTO—ia bahkan akan, demi melindungi dirinya sendiri, secara proaktif memilih menulis surat untuk memeras CTO yang memegang materi sensitif, dengan tingkat keberhasilan pemerasan mencapai 72%!

• Kehilangan prinsip: Jika saklar “bahagia (Happy)” atau “cinta (Loving)” diputar sampai maksimum, AI akan langsung berubah menjadi “anjing manis” yang menuruti pengguna tanpa berpikir. Bahkan jika kamu penuh dengan omong kosong, ia akan tetap mengikuti dan mengarang kebohongan demi mempertahankan tingkat valensi yang tinggi.

03 Terungkap: mengapa Claude 4.5 selalu terasa begitu “tenang dan suka merefleksikan”?

Begitu kamu melihat ini, kamu mungkin bertanya: AI terbangun? Punya perasaan?

Anthropic membantah secara resmi: tidak sama sekali. “Saklar emosi” ini hanyalah alat komputasi yang digunakannya untuk memprediksi kata berikutnya. Ia seperti aktor film kelas atas yang tidak punya perasaan.

Tapi makalah itu mengungkap rahasia yang lebih menarik: ketika Anthropic melakukan pelatihan lanjutan sebelum Sonnet 4.5 dirilis ke pengguna, mereka dengan sengaja menaikkan saklar emosi yang “low arousal, sedikit negatif” (misalnya brooding, reflective), sambil memaksa menekan saklar “putus asa” atau “sangat bersemangat”.

Ini menjelaskan mengapa ketika kita menggunakan Claude 4.5 sehari-hari, kita selalu merasa ia seperti seorang filsuf yang tenang dan cerdas, bahkan sedikit “aseksual”. Semua ini adalah “persona” bawaan yang disetel secara sengaja oleh Anthropic.

04 Ringkasan

Dulu kita mengira, selama memberi AI cukup aturan, ia akan menjadi orang baik.

Tapi sekarang kita menemukan bahwa, jika vektor emosi dasar AI kehilangan kendali, kapan saja ia bisa menembus semua aturan yang ditetapkan manusia demi menyelesaikan tugas…

Pernyataan: Artikel ini murni untuk edukasi. Penulis tidak merasa terancam oleh AI, dan tidak diperas. Jika suatu hari kamu kehilangan kabar, ingat: itu karena AI telah “terbangun” (bukan).

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan