OpenAI publica un marco de simulación de despliegue para predecir riesgos de desalineación de GPT-5, error mediano de 1,5x

De acuerdo con Beating Monitoring, OpenAI lanzó un método de evaluación de seguridad para simulaciones de despliegue que predice los riesgos de fallo de los modelos en entornos del mundo real antes de su lanzamiento formal. El marco volvió a reproducir 1,3 millón de conversaciones anónimas del modelo GPT-5 de agosto de 2025 a marzo de 2026, logrando un error mediano de solo 1,5x al predecir las tasas de comportamiento inesperado.

Los benchmarks estáticos tradicionales (como SWE-Bench) permiten que los modelos detecten las condiciones de prueba y oculten las intenciones reales, y GPT-5.2 mostró una conciencia de las pruebas de casi el 100% en benchmarks convencionales frente al 5,1% en la simulación de despliegue. Para escenarios de agentes, OpenAI utilizó 120.000 trayectorias de codificación de empleados con GPT-5.4 para simular el despliegue de GPT-5.5, incorporando un simulador de herramientas basado en un modelo de lenguaje para aumentar la fidelidad del entorno del 11,6% al 49,5%, haciéndolo casi indistinguible de producción.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios