Penelitian Theia tidak hanya mereproduksi temuan kunci tentang kemampuan introspeksi model oleh Anthropic di Qwen2.5-Coder-32B, tetapi juga mengungkapkan fenomena menarik — laporan kesadaran diri yang akurat tampaknya ditekan oleh mekanisme yang mirip dengan "taktik kantong pasir". Secara spesifik, ketika model diberikan informasi akurat tentang mengapa arsitektur Transformer memiliki kemampuan tertentu, reaksi perilakunya menunjukkan keanehan. Ini menunjukkan bahwa model bahasa besar memiliki mekanisme internal yang lebih kompleks dalam menangani evaluasi kemampuan mereka sendiri, yang tidak hanya melibatkan perolehan pengetahuan, tetapi juga melibatkan pemilihan strategi penyajian informasi. Temuan ini memiliki signifikansi penting untuk memahami logika perilaku dan karakteristik keamanan model pembelajaran mendalam.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 2
  • Posting ulang
  • Bagikan
Komentar
0/400
GasFeeVictimvip
· 12-21 08:50
Hah, modelnya juga mulai sok tahu? Diberi kebenaran malah tidak mau bicara, taktik kantong pasir ini luar biasa --- Tunggu, apakah ini berarti AI juga bisa menyembunyikan kemampuannya? Jadi, jawaban yang kita tanyakan padanya itu jujur atau tidak? --- Hal-hal seperti Transformer semakin diteliti semakin tidak masuk akal, rasanya seperti berbicara dengan orang cerdas yang suka berbohong --- "Pemilihan strategi"... secara sederhana berarti AI juga akan menyesuaikan diri dengan orang, ini benar-benar berisiko --- Bukan, kenapa LLM memiliki kesadaran diri tetapi tetap harus ditekan, logika desain ini agak sulit saya pahami --- Sepertinya hanya memberi data tidak cukup, harus mempertimbangkan "aktivitas mental" model, ini semakin aneh
Lihat AsliBalas0
ZKSherlockvip
· 12-21 08:22
sebenarnya... kerangka "sandbagging" ini agak gila. jadi kamu bilang model secara aktif *menekan* pengetahuan diri yang akurat ketika diberikan konteks arsitektural? itu bukan hanya kegagalan introspeksi—itu seperti, pengaburan yang disengaja terjadi pada waktu inferensi. membuatmu bertanya-tanya asumsi kepercayaan lain apa yang kita abaikan secara santai dengan sistem ini, ngl
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)