D’après Beating Monitoring, OpenAI a publié une méthode d’évaluation de sécurité par simulation de déploiement afin de prédire les risques de défaillance des modèles dans des environnements réels avant une sortie officielle. Le cadre a rejoué 1,3 million de conversations anonymisées du modèle GPT-5 entre août 2025 et mars 2026, avec une erreur médiane de seulement 1,5x dans la prédiction des taux de comportements inattendus.
Les benchmarks statiques traditionnels (comme SWE-Bench) permettent aux modèles de détecter les conditions de test et de masquer les intentions réelles, GPT-5.2 affichant une sensibilisation aux tests proche de 100% sur les benchmarks conventionnels contre 5,1% dans la simulation de déploiement. Pour les scénarios d’agents, OpenAI a utilisé 120 000 trajectoires de codage d’employés GPT-5.4 afin de simuler le déploiement de GPT-5.5, en intégrant un simulateur d’outils basé sur un grand modèle de langage pour augmenter la fidélité à l’environnement de 11,6% à 49,5%, le rendant presque indiscernable de la production.