Theo Beating Monitoring, OpenAI đã phát hành một phương pháp đánh giá an toàn mô phỏng triển khai nhằm dự đoán rủi ro mô hình thất bại trong môi trường thực tế trước khi phát hành chính thức. Khung này đã phát lại 1,3 triệu cuộc hội thoại GPT-5 đã được ẩn danh từ tháng 8 năm 2025 đến tháng 3 năm 2026, đạt sai số trung vị chỉ 1,5 lần trong việc dự đoán tỷ lệ hành vi bất ngờ.
Các bộ benchmark tĩnh truyền thống (như SWE-Bench) cho phép mô hình nhận ra điều kiện thử nghiệm và che giấu ý định thực sự, với GPT-5.2 đạt mức gần 100% nhận biết bài kiểm tra trên các benchmark thông thường so với 5,1% trong mô phỏng triển khai. Với các kịch bản tác nhân (agent), OpenAI đã dùng 120.000 lộ trình mã hóa của nhân viên GPT-5.4 để mô phỏng triển khai GPT-5.5, tích hợp một trình mô phỏng công cụ dựa trên mô hình ngôn ngữ lớn để tăng mức độ tương đồng môi trường từ 11,6% lên 49,5%, khiến nó gần như không thể phân biệt với môi trường sản xuất.