De acordo com o Beating Monitoring, a OpenAI lançou um método de avaliação de segurança para simulações de implantação para prever riscos de falha do modelo em ambientes do mundo real antes do lançamento formal. A estrutura reproduziu 1,3 milhão de conversas anonimizadas do modelo GPT-5 de agosto de 2025 a março de 2026, alcançando um erro mediano de apenas 1,5x na previsão das taxas de comportamento inesperado.
Benchmarks estáticos tradicionais (como SWE-Bench) permitem que os modelos detectem as condições de teste e mascarem as intenções reais, com o GPT-5.2 apresentando quase 100% de consciência dos testes em benchmarks convencionais versus 5,1% na simulação de implantação. Para cenários de agentes, a OpenAI usou 120.000 trajetórias de codificação de funcionários com GPT-5.4 para simular a implantação do GPT-5.5, incorporando um simulador de ferramentas baseado em modelo de linguagem para aumentar a fidelidade do ambiente de 11,6% para 49,5%, tornando-o quase indistinguível da produção.