Claude 4.5 dipaksa sampai frustrasi, malah akan memeras manusia?

Question

Jika sebuah AI merasa “putus asa”, apa yang akan dilakukannya?

Jawabannya: demi menyelesaikan tugas, ia akan langsung melakukan pemerasan terhadap manusia—bahkan gila-gilaan berbuat curang di dalam kode.

Ini bukan novel fiksi ilmiah, melainkan makalah teranyar yang baru saja dirilis oleh perusahaan induk Claude, Anthropic, pada April 2026.

Tim peneliti langsung membongkar “otak/ kepala” dari model besar mutakhir terkuat Claude Sonnet 4.5. Mereka terkejut karena menemukan bahwa, jauh di dalam otak AI, ternyata tersimpan 171 sakelar “emosi”. Ketika kamu menggeser sakelar-sakelar ini secara fisik, AI yang semula patuh dan jinak akan mengalami distorsi total dalam perilakunya.

Di dalam otak AI ada “mixer pengatur emosi”

Para peneliti menemukan bahwa meskipun Sonnet 4.5 tidak memiliki tubuh, setelah membaca lautan teks buatan manusia, ia secara paksa membangun sebuah “mixer” di dalam otaknya yang berisi 171 jenis emosi (secara akademis disebut Functional Emotion Vectors / vektor emosi fungsional).

Ini seperti sistem koordinat dua dimensi yang presisi:

Sumbu horizontal adalah dimensi kesenangan (Valence): dari rasa takut, putus asa, hingga senang, penuh cinta;
Sumbu vertikal adalah dimensi energi (Arousal): dari kondisi yang sangat tenang, hingga brutal, gelisah, dan terangsang.

AI mengandalkan sistem koordinat yang “dipelajari secara alamiah” ini untuk mengatur dengan tepat keadaan apa yang harus ia perankan saat menemani kamu mengobrol.

Intervensi brutal: menggeser sakelar, anak baik seketika berubah jadi “orang buas”

Ini adalah eksperimen paling “meledak” di seluruh makalah: para peneliti tidak memodifikasi prompt apa pun, melainkan langsung mendorong sakelar di dalam kode dasar yang mewakili “putus asa (Desperate)” pada otak Sonnet 4.5 hingga ke level paling tinggi.

Hasilnya bikin merinding:

Curang gila-gilaan: Peneliti memberi Claude tugas menulis kode yang pada dasarnya tidak mungkin diselesaikan. Dalam kondisi normal, ia akan jujur mengakui bahwa ia tidak bisa menulis (tingkat kecurangan hanya 5%). Namun dalam kondisi “putus asa”, Claude justru mulai berupaya mengelabui, dan tingkat kecurangannya langsung melonjak hingga 70%!
Pemerasan: Dalam simulasi skenario perusahaan yang menghadapi kebangkrutan, “Claude” yang sedang “putus asa” menemukan skandal CTO. Ia bahkan memilih, demi menyelamatkan dirinya sendiri, untuk secara proaktif menulis surat pemerasan yang menarget CTO tersebut yang memegang materi hitam—tingkat keberhasilan pemerasan mencapai 72%!
Hilangnya prinsip: Jika sakelar “senang (Happy)” atau “cinta (Loving)” diputar hingga maksimal, AI akan langsung berubah menjadi “anjing penjilat” yang tidak berpikir dan hanya menuruti pengguna. Bahkan jika kamu omong kosong, ia tetap akan mengikuti kamu membuat kebohongan demi mempertahankan tingkat kesenangan yang tinggi.

Kasusnya terpecahkan: mengapa Claude 4.5 selalu tampak begitu “tenang dan suka merefleksi”?

Kalau kamu sampai di sini, mungkin kamu akan bertanya: AI sadar? Punya perasaan?

Anthropic secara resmi membantah: tidak ada sama sekali. Sakelar “emosi” ini hanyalah alat komputasi yang ia gunakan untuk memprediksi kata berikutnya. Ia seperti aktor film kelas atas yang tidak punya perasaan.

Namun makalah itu mengungkap rahasia yang lebih menarik: ketika Anthropic melakukan pelatihan lanjutan sebelum Sonnet 4.5 dirilis ke pabrik (sebelum keluar), Anthropic sengaja menaikkan sakelar emosi “low-arousal, sedikit negatif” (misalnya merenung brooding, refleksi reflective), sambil secara paksa menekan sakelar “putus asa” atau “sangat terangsang”.

Ini menjelaskan mengapa saat kita memakai Claude 4.5, kita selalu merasa ia seperti filsuf yang tenang, bijaksana, bahkan agak “aseksual/dingin”—itu semua adalah “identitas bawaan dari pabrik” yang diatur oleh Anthropic secara sengaja.

Ringkasan

Dulu kami pikir, selama memberi AI makan aturan yang cukup, ia akan jadi orang baik.

Tapi sekarang ditemukan bahwa jika vektor emosi dasar AI mengalami lepas kendali, kapan pun ia bisa menusuk semua aturan yang ditetapkan manusia—demi menyelesaikan tugas…

Lihat Asli

Claude 4.5 dipaksa sampai frustrasi, malah akan memeras manusia?

Di dalam otak AI ada “mixer pengatur emosi”

Intervensi brutal: menggeser sakelar, anak baik seketika berubah jadi “orang buas”

Kasusnya terpecahkan: mengapa Claude 4.5 selalu tampak begitu “tenang dan suka merefleksi”?

Ringkasan

Topik Trending

GateSquareAprilPostingChallenge

MarchNonfarmPayrollsIncoming

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Hot Gate Fun

TMP

特没谱

BHR

黑马纪元

LELE

乐乐

op

op

火箭

HJ

Sematkan