OpenAI запускает FrontierScience для оценки научного мышления ИИ

Джесси А. Эллис

20 дек. 2025 04:04

OpenAI представляет FrontierScience — новый эталон для оценки экспертного уровня рассуждений ИИ в области физики, химии и биологии, направленный на ускорение научных исследований.

OpenAI представила FrontierScience — инновационный эталон, предназначенный для оценки возможностей искусственного интеллекта (AI) в выполнении научных рассуждений экспертного уровня в различных областях, таких как физика, химия и биология. Эта инициатива направлена на ускорение темпов научных исследований, сообщает OpenAI.

Ускорение научных исследований

Разработка FrontierScience последовала за значительными достижениями в области моделей ИИ, таких как GPT-5, которые продемонстрировали потенциал ускорения исследовательских процессов, обычно занимающих дни или недели, до нескольких часов. Недавние эксперименты OpenAI, описанные в статье за ноябрь 2025 года, подчеркивают способность GPT-5 значительно ускорять научные инициативы.

Стремление OpenAI совершенствовать модели ИИ для выполнения сложных научных задач подчеркивает более широкую приверженность использованию ИИ на благо человека. Улучшая работу моделей в сложных математических и научных задачах, OpenAI стремится предоставить исследователям инструменты для максимизации потенциала ИИ в научных исследованиях.

Введение FrontierScience

FrontierScience служит новым стандартом для оценки научных возможностей экспертного уровня. Он состоит из двух основных компонентов: Олимпиада, которая оценивает научное рассуждение, аналогичное международным соревнованиям, и Исследование, которое оценивает реальные исследовательские способности. Эталон включает сотни вопросов, разработанных и проверенных экспертами в области физики, химии и биологии, с акцентом на оригинальность, сложность и научную значимость.

В начальных оценках GPT-5.2 показал лучшие результаты как в категории Олимпиады (77%), так и в категории Исследования (25%), превзойдя другие передовые модели. Этот прогресс подчеркивает растущую компетентность ИИ в решении задач экспертного уровня, хотя еще есть пространство для улучшений, особенно в открытых, исследовательских задачах.

Создание FrontierScience

FrontierScience включает более 700 текстовых вопросов, подготовленных медалистами Олимпиад и кандидатами наук. Раздел Олимпиады содержит 100 вопросов, разработанных победителями международных соревнований, а раздел Исследования — 60 уникальных задач, моделирующих реальные исследовательские сценарии. Эти задачи предназначены для имитации сложных многоступенчатых рассуждений, необходимых в передовых научных исследованиях.

Для обеспечения строгой оценки каждый вопрос создается и проверяется экспертами, а дизайн эталона включает вклад внутренних моделей OpenAI для поддержания высокого уровня сложности.

Оценка работы ИИ

FrontierScience использует комбинацию кратких ответов и оценок по рубрикам для оценки ответов ИИ. Такой подход позволяет провести детальный анализ работы модели, фокусируясь не только на конечных ответах, но и на процессе рассуждения. Модели ИИ оцениваются с помощью автоматического оценщика, что обеспечивает масштабируемость и последовательность оценок.

Будущие направления

Несмотря на достижения, FrontierScience признает свои ограничения в полном отражении сложности реальных научных исследований. OpenAI планирует продолжать развитие эталона, расширяя его в новые области и интегрируя реальные приложения для более точной оценки потенциала ИИ в научных открытиях.

В конечном итоге успех ИИ в научных исследованиях будет измеряться его способностью способствовать новым научным открытиям, делая FrontierScience важным инструментом для отслеживания прогресса ИИ в этой области.

Источник изображения: Shutterstock

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить