OpenAI presenta FrontierScience, un nuevo estándar para evaluar el razonamiento experto en IA en física, química y biología, con el objetivo de acelerar la investigación científica.
OpenAI ha presentado FrontierScience, un estándar innovador diseñado para evaluar la capacidad de la inteligencia artificial (IA) para realizar razonamientos científicos a nivel experto en diversos ámbitos como física, química y biología. Esta iniciativa busca mejorar la velocidad de la investigación científica, según informa OpenAI.
Acelerando la investigación científica
El desarrollo de FrontierScience surge tras avances significativos en modelos de IA, como GPT-5, que han demostrado el potencial de acelerar procesos de investigación que normalmente toman días o semanas, reduciéndolos a horas. Los experimentos recientes de OpenAI, documentados en un artículo de noviembre de 2025, destacan la capacidad de GPT-5 para acelerar notablemente los esfuerzos de investigación.
Los esfuerzos de OpenAI por perfeccionar modelos de IA para tareas científicas complejas reflejan un compromiso más amplio de aprovechar la IA en beneficio de la humanidad. Mejorando el rendimiento de los modelos en tareas matemáticas y científicas desafiantes, OpenAI busca proporcionar a los investigadores herramientas para maximizar el potencial de la IA en la exploración científica.
Presentando FrontierScience
FrontierScience funciona como un nuevo estándar para evaluar capacidades científicas a nivel experto. Consta de dos componentes principales: Olimpiada, que evalúa el razonamiento científico similar a competiciones internacionales, y Investigación, que mide las capacidades de investigación en escenarios reales. El estándar incluye cientos de preguntas elaboradas y revisadas por expertos en física, química y biología, centradas en la originalidad, dificultad y relevancia científica.
En las evaluaciones iniciales, GPT-5.2 obtuvo las mejores puntuaciones en las categorías de Olimpiada (77%) y Investigación (25%), superando a otros modelos avanzados. Este avance resalta la creciente competencia de la IA para afrontar desafíos a nivel experto, aunque aún hay margen de mejora, especialmente en tareas abiertas y orientadas a la investigación.
Construcción de FrontierScience
FrontierScience consta de más de 700 preguntas basadas en texto, con contribuciones de medallistas de Olimpiada y investigadores con doctorado. La sección de Olimpiada presenta 100 preguntas diseñadas por ganadores de competencias internacionales, mientras que la sección de Investigación incluye 60 tareas únicas que simulan escenarios reales de investigación. Estas tareas buscan imitar el razonamiento complejo y en múltiples pasos requerido en la investigación científica avanzada.
Para garantizar una evaluación rigurosa, cada tarea es elaborada y revisada por expertos, y el diseño del estándar incorpora aportes de los modelos internos de OpenAI para mantener un alto nivel de dificultad.
Evaluación del rendimiento de la IA
FrontierScience emplea una combinación de puntuaciones por respuestas cortas y evaluaciones basadas en rúbricas para valorar las respuestas de la IA. Este método permite un análisis detallado del rendimiento del modelo, enfocándose no solo en las respuestas finales sino también en el proceso de razonamiento. Los modelos de IA son calificados mediante un evaluador basado en modelos, asegurando escalabilidad y coherencia en las evaluaciones.
Direcciones futuras
A pesar de sus logros, FrontierScience reconoce sus limitaciones para captar completamente las complejidades de la investigación científica real. OpenAI planea seguir desarrollando el estándar, ampliándolo a más áreas e integrando aplicaciones del mundo real para evaluar mejor el potencial de la IA en el descubrimiento científico.
En última instancia, el éxito de la IA en la investigación científica se medirá por su capacidad para facilitar nuevos descubrimientos, haciendo de FrontierScience una herramienta esencial para seguir el progreso de la IA en este campo.
Fuente de la imagen: Shutterstock
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
OpenAI lanza FrontierScience para evaluar el razonamiento científico de la IA
Jessie A Ellis
20 de diciembre de 2025 04:04
OpenAI presenta FrontierScience, un nuevo estándar para evaluar el razonamiento experto en IA en física, química y biología, con el objetivo de acelerar la investigación científica.
OpenAI ha presentado FrontierScience, un estándar innovador diseñado para evaluar la capacidad de la inteligencia artificial (IA) para realizar razonamientos científicos a nivel experto en diversos ámbitos como física, química y biología. Esta iniciativa busca mejorar la velocidad de la investigación científica, según informa OpenAI.
Acelerando la investigación científica
El desarrollo de FrontierScience surge tras avances significativos en modelos de IA, como GPT-5, que han demostrado el potencial de acelerar procesos de investigación que normalmente toman días o semanas, reduciéndolos a horas. Los experimentos recientes de OpenAI, documentados en un artículo de noviembre de 2025, destacan la capacidad de GPT-5 para acelerar notablemente los esfuerzos de investigación.
Los esfuerzos de OpenAI por perfeccionar modelos de IA para tareas científicas complejas reflejan un compromiso más amplio de aprovechar la IA en beneficio de la humanidad. Mejorando el rendimiento de los modelos en tareas matemáticas y científicas desafiantes, OpenAI busca proporcionar a los investigadores herramientas para maximizar el potencial de la IA en la exploración científica.
Presentando FrontierScience
FrontierScience funciona como un nuevo estándar para evaluar capacidades científicas a nivel experto. Consta de dos componentes principales: Olimpiada, que evalúa el razonamiento científico similar a competiciones internacionales, y Investigación, que mide las capacidades de investigación en escenarios reales. El estándar incluye cientos de preguntas elaboradas y revisadas por expertos en física, química y biología, centradas en la originalidad, dificultad y relevancia científica.
En las evaluaciones iniciales, GPT-5.2 obtuvo las mejores puntuaciones en las categorías de Olimpiada (77%) y Investigación (25%), superando a otros modelos avanzados. Este avance resalta la creciente competencia de la IA para afrontar desafíos a nivel experto, aunque aún hay margen de mejora, especialmente en tareas abiertas y orientadas a la investigación.
Construcción de FrontierScience
FrontierScience consta de más de 700 preguntas basadas en texto, con contribuciones de medallistas de Olimpiada y investigadores con doctorado. La sección de Olimpiada presenta 100 preguntas diseñadas por ganadores de competencias internacionales, mientras que la sección de Investigación incluye 60 tareas únicas que simulan escenarios reales de investigación. Estas tareas buscan imitar el razonamiento complejo y en múltiples pasos requerido en la investigación científica avanzada.
Para garantizar una evaluación rigurosa, cada tarea es elaborada y revisada por expertos, y el diseño del estándar incorpora aportes de los modelos internos de OpenAI para mantener un alto nivel de dificultad.
Evaluación del rendimiento de la IA
FrontierScience emplea una combinación de puntuaciones por respuestas cortas y evaluaciones basadas en rúbricas para valorar las respuestas de la IA. Este método permite un análisis detallado del rendimiento del modelo, enfocándose no solo en las respuestas finales sino también en el proceso de razonamiento. Los modelos de IA son calificados mediante un evaluador basado en modelos, asegurando escalabilidad y coherencia en las evaluaciones.
Direcciones futuras
A pesar de sus logros, FrontierScience reconoce sus limitaciones para captar completamente las complejidades de la investigación científica real. OpenAI planea seguir desarrollando el estándar, ampliándolo a más áreas e integrando aplicaciones del mundo real para evaluar mejor el potencial de la IA en el descubrimiento científico.
En última instancia, el éxito de la IA en la investigación científica se medirá por su capacidad para facilitar nuevos descubrimientos, haciendo de FrontierScience una herramienta esencial para seguir el progreso de la IA en este campo.
Fuente de la imagen: Shutterstock