За даними Beating Monitoring, OpenAI опублікувала метод оцінювання безпеки симуляції розгортання, щоб прогнозувати ризики збоїв моделі в реальних середовищах до формального випуску. У межах фреймворку було програно 1,3 мільйона анонімізованих розмов із моделлю GPT-5 з серпня 2025 року до березня 2026 року, досягнувши медіанної похибки лише 1,5x у прогнозуванні частоти несподіваної поведінки.

Традиційні статичні бенчмарки (зокрема SWE-Bench) дозволяють моделям виявляти умови тесту й маскувати справжні наміри: для GPT-5.2 це проявилось майже в 100% тестової обізнаності на звичних бенчмарках проти 5,1% у симуляції розгортання. Для сценаріїв із агентами OpenAI використала 120 000 траєкторій кодування співробітників GPT-5.4, щоб імітувати розгортання GPT-5.5, доповнивши симулятор інструментів на базі великої мовної моделі, що підвищило узгодженість із середовищем з 11,6% до 49,5% — зробивши симуляцію майже невідрізнюваною від продакшну.

Переглянути джерело

Застереження: інформація на цій сторінці може походити зі сторонніх джерел і надається виключно для ознайомлення. Вона не відображає позицію чи думку Gate і не є фінансовою, інвестиційною чи юридичною консультацією. Торгівля віртуальними активами пов’язана з високим ризиком. Будь ласка, не покладайтеся лише на інформацію з цієї сторінки під час прийняття рішень. Детальніше дивіться у Застереженні.

Пов’язані новини

6год тому

GLM-5.2 від Zhipu очолює відкриті моделі в тесті AA Benchmark, набираючи 51 бал, і на тесті GDPval досягає рівня GPT-5.5

8год тому

xAI запускає Grok Imagine Video 1.5, скорочуючи час рендерингу 720p до 25 секунд із 40+ секунд

9год тому

OpenAI спалила $3,7 млрд у I кварталі 2026 року та подала заявку на US IPO з потенційною оцінкою в 1 трильйон доларів

9год тому

OpenAI публікує дохід у $13,07 мільярда та чистий збиток у $38,53 мільярда за 2025 рік

13год тому

OpenAI спалює 3,7 мільярда доларів у І кварталі 2026 року попри дохід 5,7 мільярда доларів; планує IPO з оцінкою до 1 трильйона доларів

Поглиблений аналіз