根據 Beating Monitoring,OpenAI 發布了一種部署模擬安全評估方法,能在正式發布前於真實環境中預測模型失敗風險。該框架重播了 2025 年 8 月至 2026 年 3 月間 130 萬份匿名化的 GPT-5 模型對話,在預測意外行為率方面僅達到中位數 1.5 倍的誤差。
傳統的靜態基準(如 SWE-Bench)允許模型辨識測試條件並掩蓋真正意圖;GPT-5.2 在傳統基準上的測試意識率接近 100%,而在部署模擬中為 5.1%。在代理(agent)情境中,OpenAI 使用 12 萬份 GPT-5.4 員工的程式碼軌跡來模擬 GPT-5.5 部署,並結合基於大型語言模型的工具模擬器,以將環境逼真度從 11.6% 提升至 49.5%,使其幾乎與正式環境無法區分。