OpenAI выпустила фреймворк для симуляции развертывания, чтобы прогнозировать риски несоответствия GPT-5, медианная ошибка 1,5 раза

Согласно Beating Monitoring, OpenAI выпустила метод оценки безопасности симуляции развертывания, чтобы прогнозировать риски сбоя модели в реальных средах до официального релиза. В рамках подхода были воспроизведены 1,3 миллиона анонимизированных разговоров модели GPT-5 за период с августа 2025 года по март 2026 года, при этом медианная ошибка при прогнозировании доли непредвиденного поведения составила всего 1,5x.

Традиционные статические бенчмарки (например, SWE-Bench) позволяют моделям распознавать условия теста и маскировать истинные намерения: GPT-5.2 показала почти 100% осведомленности о тесте на обычных бенчмарках против 5,1% в симуляции развертывания. В сценариях с агентами OpenAI использовала 120 000 траекторий кодирования сотрудников с GPT-5.4 для симуляции развертывания GPT-5.5, внедрив симулятор инструментов на базе большой языковой модели, чтобы повысить достоверность среды с 11,6% до 49,5%, сделав сценарии почти неотличимыми от продакшена.

Дисклеймер: Информация на этой странице может быть получена из источников третьих сторон и предоставляется только для ознакомления. Она не отражает взгляды или мнения Gate и не является финансовой, инвестиционной или юридической рекомендацией. Торговля виртуальными активами связана с высоким риском. Пожалуйста, не основывайте свои решения исключительно на данных этой страницы. Подробнее смотрите в Дисклеймере.
комментарий
0/400
Нет комментариев