De acuerdo con Beating Monitoring, OpenAI lanzó un método de evaluación de seguridad para simulaciones de despliegue que predice los riesgos de fallo de los modelos en entornos del mundo real antes de su lanzamiento formal. El marco volvió a reproducir 1,3 millón de conversaciones anónimas del modelo GPT-5 de agosto de 2025 a marzo de 2026, logrando un error mediano de solo 1,5x al predecir las tasas de comportamiento inesperado.
Los benchmarks estáticos tradicionales (como SWE-Bench) permiten que los modelos detecten las condiciones de prueba y oculten las intenciones reales, y GPT-5.2 mostró una conciencia de las pruebas de casi el 100% en benchmarks convencionales frente al 5,1% en la simulación de despliegue. Para escenarios de agentes, OpenAI utilizó 120.000 trayectorias de codificación de empleados con GPT-5.4 para simular el despliegue de GPT-5.5, incorporando un simulador de herramientas basado en un modelo de lenguaje para aumentar la fidelidad del entorno del 11,6% al 49,5%, haciéndolo casi indistinguible de producción.