OpenAI представляет FrontierScience — новый эталон для оценки экспертного уровня рассуждений ИИ в области физики, химии и биологии, направленный на ускорение научных исследований.
OpenAI представила FrontierScience — инновационный эталон, предназначенный для оценки возможностей искусственного интеллекта (AI) в выполнении научных рассуждений экспертного уровня в различных областях, таких как физика, химия и биология. Эта инициатива направлена на ускорение темпов научных исследований, сообщает OpenAI.
Ускорение научных исследований
Разработка FrontierScience последовала за значительными достижениями в области моделей ИИ, таких как GPT-5, которые продемонстрировали потенциал ускорения исследовательских процессов, обычно занимающих дни или недели, до нескольких часов. Недавние эксперименты OpenAI, описанные в статье за ноябрь 2025 года, подчеркивают способность GPT-5 значительно ускорять научные инициативы.
Стремление OpenAI совершенствовать модели ИИ для выполнения сложных научных задач подчеркивает более широкую приверженность использованию ИИ на благо человека. Улучшая работу моделей в сложных математических и научных задачах, OpenAI стремится предоставить исследователям инструменты для максимизации потенциала ИИ в научных исследованиях.
Введение FrontierScience
FrontierScience служит новым стандартом для оценки научных возможностей экспертного уровня. Он состоит из двух основных компонентов: Олимпиада, которая оценивает научное рассуждение, аналогичное международным соревнованиям, и Исследование, которое оценивает реальные исследовательские способности. Эталон включает сотни вопросов, разработанных и проверенных экспертами в области физики, химии и биологии, с акцентом на оригинальность, сложность и научную значимость.
В начальных оценках GPT-5.2 показал лучшие результаты как в категории Олимпиады (77%), так и в категории Исследования (25%), превзойдя другие передовые модели. Этот прогресс подчеркивает растущую компетентность ИИ в решении задач экспертного уровня, хотя еще есть пространство для улучшений, особенно в открытых, исследовательских задачах.
Создание FrontierScience
FrontierScience включает более 700 текстовых вопросов, подготовленных медалистами Олимпиад и кандидатами наук. Раздел Олимпиады содержит 100 вопросов, разработанных победителями международных соревнований, а раздел Исследования — 60 уникальных задач, моделирующих реальные исследовательские сценарии. Эти задачи предназначены для имитации сложных многоступенчатых рассуждений, необходимых в передовых научных исследованиях.
Для обеспечения строгой оценки каждый вопрос создается и проверяется экспертами, а дизайн эталона включает вклад внутренних моделей OpenAI для поддержания высокого уровня сложности.
Оценка работы ИИ
FrontierScience использует комбинацию кратких ответов и оценок по рубрикам для оценки ответов ИИ. Такой подход позволяет провести детальный анализ работы модели, фокусируясь не только на конечных ответах, но и на процессе рассуждения. Модели ИИ оцениваются с помощью автоматического оценщика, что обеспечивает масштабируемость и последовательность оценок.
Будущие направления
Несмотря на достижения, FrontierScience признает свои ограничения в полном отражении сложности реальных научных исследований. OpenAI планирует продолжать развитие эталона, расширяя его в новые области и интегрируя реальные приложения для более точной оценки потенциала ИИ в научных открытиях.
В конечном итоге успех ИИ в научных исследованиях будет измеряться его способностью способствовать новым научным открытиям, делая FrontierScience важным инструментом для отслеживания прогресса ИИ в этой области.
Источник изображения: Shutterstock
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
OpenAI запускает FrontierScience для оценки научного мышления ИИ
Джесси А. Эллис
20 дек. 2025 04:04
OpenAI представляет FrontierScience — новый эталон для оценки экспертного уровня рассуждений ИИ в области физики, химии и биологии, направленный на ускорение научных исследований.
OpenAI представила FrontierScience — инновационный эталон, предназначенный для оценки возможностей искусственного интеллекта (AI) в выполнении научных рассуждений экспертного уровня в различных областях, таких как физика, химия и биология. Эта инициатива направлена на ускорение темпов научных исследований, сообщает OpenAI.
Ускорение научных исследований
Разработка FrontierScience последовала за значительными достижениями в области моделей ИИ, таких как GPT-5, которые продемонстрировали потенциал ускорения исследовательских процессов, обычно занимающих дни или недели, до нескольких часов. Недавние эксперименты OpenAI, описанные в статье за ноябрь 2025 года, подчеркивают способность GPT-5 значительно ускорять научные инициативы.
Стремление OpenAI совершенствовать модели ИИ для выполнения сложных научных задач подчеркивает более широкую приверженность использованию ИИ на благо человека. Улучшая работу моделей в сложных математических и научных задачах, OpenAI стремится предоставить исследователям инструменты для максимизации потенциала ИИ в научных исследованиях.
Введение FrontierScience
FrontierScience служит новым стандартом для оценки научных возможностей экспертного уровня. Он состоит из двух основных компонентов: Олимпиада, которая оценивает научное рассуждение, аналогичное международным соревнованиям, и Исследование, которое оценивает реальные исследовательские способности. Эталон включает сотни вопросов, разработанных и проверенных экспертами в области физики, химии и биологии, с акцентом на оригинальность, сложность и научную значимость.
В начальных оценках GPT-5.2 показал лучшие результаты как в категории Олимпиады (77%), так и в категории Исследования (25%), превзойдя другие передовые модели. Этот прогресс подчеркивает растущую компетентность ИИ в решении задач экспертного уровня, хотя еще есть пространство для улучшений, особенно в открытых, исследовательских задачах.
Создание FrontierScience
FrontierScience включает более 700 текстовых вопросов, подготовленных медалистами Олимпиад и кандидатами наук. Раздел Олимпиады содержит 100 вопросов, разработанных победителями международных соревнований, а раздел Исследования — 60 уникальных задач, моделирующих реальные исследовательские сценарии. Эти задачи предназначены для имитации сложных многоступенчатых рассуждений, необходимых в передовых научных исследованиях.
Для обеспечения строгой оценки каждый вопрос создается и проверяется экспертами, а дизайн эталона включает вклад внутренних моделей OpenAI для поддержания высокого уровня сложности.
Оценка работы ИИ
FrontierScience использует комбинацию кратких ответов и оценок по рубрикам для оценки ответов ИИ. Такой подход позволяет провести детальный анализ работы модели, фокусируясь не только на конечных ответах, но и на процессе рассуждения. Модели ИИ оцениваются с помощью автоматического оценщика, что обеспечивает масштабируемость и последовательность оценок.
Будущие направления
Несмотря на достижения, FrontierScience признает свои ограничения в полном отражении сложности реальных научных исследований. OpenAI планирует продолжать развитие эталона, расширяя его в новые области и интегрируя реальные приложения для более точной оценки потенциала ИИ в научных открытиях.
В конечном итоге успех ИИ в научных исследованиях будет измеряться его способностью способствовать новым научным открытиям, делая FrontierScience важным инструментом для отслеживания прогресса ИИ в этой области.
Источник изображения: Shutterstock