OpenAI、FrontierScienceを立ち上げ、AIの科学的推論をベンチマーク

ジェシー・A・エリス

2025年12月20日 04:04

OpenAIは、物理学、化学、生物学におけるAIの専門レベルの推論能力を評価する新しいベンチマーク「FrontierScience」を発表し、科学研究の加速を目指しています。

OpenAIは、さまざまな分野での人工知能(AI)の専門レベルの科学的推論能力を評価する革新的なベンチマーク「FrontierScience」を導入しました。この取り組みは、科学研究のスピードを向上させることを目的としています。

科学研究の加速

FrontierScienceの開発は、GPT-5などのAIモデルの大きな進歩を背景にしています。これらのモデルは、通常数日や数週間かかる研究プロセスを数時間に短縮できる可能性を示しています。OpenAIの2025年11月の論文に記録された最近の実験では、GPT-5が研究活動を大幅に加速させる能力を持つことが明らかになっています。

OpenAIの複雑な科学的課題に対するAIモデルの改良への取り組みは、人類の利益のためにAIを活用するというより広いコミットメントを示しています。モデルの数学的・科学的タスクの性能を向上させることで、研究者がAIの潜在能力を最大限に引き出せるツールを提供しようとしています。

FrontierScienceの紹介

FrontierScienceは、専門レベルの科学的能力を評価する新たな基準です。主に二つの構成要素から成り、国際的な競技会に似た科学的推論を評価する「オリンピアード」と、実世界の研究能力を評価する「リサーチ」に分かれています。このベンチマークには、物理学、化学、生物学の専門家が作成・審査した数百の質問が含まれ、独創性、難易度、科学的意義に焦点を当てています。

初期評価では、GPT-5.2はオリンピアード(77%)とリサーチ(25%)の両カテゴリーで最高得点を獲得し、他の高度なモデルを上回りました。この進展は、AIが専門レベルの課題に取り組む能力が高まっていることを示していますが、特にオープンエンドの研究志向のタスクでは改善の余地もあります。

FrontierScienceの構築

FrontierScienceは、オリンピアードのメダリストや博士研究者が寄稿した700以上のテキストベースの質問で構成されています。オリンピアードセクションには、国際大会の優勝者が設計した100の質問が含まれ、リサーチセクションには、実世界の研究シナリオを模した60のユニークな課題が含まれています。これらの課題は、高度な科学研究に必要な複雑で多段階の推論を模倣することを目的としています。

厳格な評価を確保するために、各課題は専門家によって作成・審査されており、ベンチマークの設計にはOpenAIの内部モデルからの入力も取り入れられ、高い難易度を維持しています。

AIのパフォーマンス評価

FrontierScienceは、短答式の採点とルーブリックに基づく評価の両方を用いてAIの応答を評価します。このアプローチにより、最終的な答えだけでなく、推論過程も詳細に分析でき、モデルのパフォーマンスをスケーラブルかつ一貫して評価することが可能です。

今後の展望

これまでの成果にもかかわらず、FrontierScienceは、実世界の科学研究の複雑さを完全に捉えるには限界があることを認めています。OpenAIは、ベンチマークをさらに進化させ、より多くの分野に拡大し、実世界の応用を取り入れることで、AIの科学的発見における潜在能力をより正確に評価していく予定です。

最終的には、科学研究におけるAIの成功は、新たな科学的発見を促進する能力によって測られます。これにより、FrontierScienceはAIの進歩を追跡するための重要なツールとなるでしょう。

画像出典:Shutterstock

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • ピン