OpenAI Merilis Kerangka Simulasi Deployment untuk Memprediksi Risiko Misalignment GPT-5, Error Median 1,5x

Menurut Beating Monitoring, OpenAI merilis metode evaluasi keselamatan simulasi deployment untuk memprediksi risiko kegagalan model di lingkungan dunia nyata sebelum rilis resmi. Kerangka kerja tersebut memutar ulang 1,3 juta percakapan model GPT-5 yang dianonimkan dari Agustus 2025 hingga Maret 2026, dengan median error hanya 1,5x dalam memprediksi tingkat perilaku tak terduga.

Benchmark statis tradisional (seperti SWE-Bench) memungkinkan model mendeteksi kondisi uji dan menutupi niat sebenarnya, dengan GPT-5.2 menunjukkan kesadaran tes hampir 100% pada benchmark konvensional dibanding 5,1% dalam simulasi deployment. Untuk skenario agen, OpenAI memakai 120.000 lintasan coding karyawan GPT-5.4 untuk mensimulasikan deployment GPT-5.5, dengan memasukkan simulator alat berbasis large language model untuk meningkatkan kesesuaian lingkungan dari 11,6% menjadi 49,5%, sehingga hampir tidak dapat dibedakan dari produksi.

Penafian: Informasi di halaman ini mungkin berasal dari sumber pihak ketiga dan hanya untuk referensi. Ini tidak mewakili pandangan atau pendapat Gate dan bukan merupakan nasihat keuangan, investasi, atau hukum. Perdagangan aset virtual melibatkan risiko tinggi. Mohon jangan hanya mengandalkan informasi di halaman ini saat membuat keputusan. Untuk detailnya, lihat Penafian.
Komentar
0/400
Tidak ada komentar