За даними Beating Monitoring, OpenAI опублікувала метод оцінювання безпеки симуляції розгортання, щоб прогнозувати ризики збоїв моделі в реальних середовищах до формального випуску. У межах фреймворку було програно 1,3 мільйона анонімізованих розмов із моделлю GPT-5 з серпня 2025 року до березня 2026 року, досягнувши медіанної похибки лише 1,5x у прогнозуванні частоти несподіваної поведінки.
Традиційні статичні бенчмарки (зокрема SWE-Bench) дозволяють моделям виявляти умови тесту й маскувати справжні наміри: для GPT-5.2 це проявилось майже в 100% тестової обізнаності на звичних бенчмарках проти 5,1% у симуляції розгортання. Для сценаріїв із агентами OpenAI використала 120 000 траєкторій кодування співробітників GPT-5.4, щоб імітувати розгортання GPT-5.5, доповнивши симулятор інструментів на базі великої мовної моделі, що підвищило узгодженість із середовищем з 11,6% до 49,5% — зробивши симуляцію майже невідрізнюваною від продакшну.