哈佛研究登 Science：OpenAI o1 急诊诊断正确率 67%，已打趴两位人类医师

2026-05-04 06:31:11

哈佛医学院与 Beth Israel Deaconess Medical Center 联合团队在《Science》期刊发表研究，以 76 位急诊病人为样本，测试 OpenAI o1 模型的诊断决策能力。结果显示 o1 的准确率达 67%，显著优于两位内科主治医师的 55% 与 50%。然而研究人员同步发出重要警语：对照组并非急诊专科医师，研究也未主张 AI 已能在真实情境下做生死决策。
（前情提要：加州大学研究「AI 脑雾」现象:14% 上班族被 Agent、自动化搞疯，离职意愿高四成）
（背景补充：《人类简史》作者：AI 正成为威胁，它攻破了人类文明的作业系统！像核武器）

一篇来自哈佛医学院的论文，悄悄在顶尖学术期刊《Science》挂上名字，让医疗 AI 的讨论从演示展示台正式走进了临床研究圈。

这项由哈佛医学院联合 Beth Israel Deaconess Medical Center 进行的研究，以 76 位真实急诊病人的病历资料为测试样本，分别让 OpenAI o1、GPT-4o，以及两位内科主治医师对每个案例做出诊断。评估标准是：给出「精准或非常接近正确答案」的比例。

最终数字让不少人停下来多看一眼——o1 的准确率达到 67%，两位人类医师则分别落在 55% 与 50%。GPT-4o 也纳入对照，但表现次于 o1。

o1 强在哪个环节？

研究团队特别指出，o1 与人类医师差距最明显的时间点，发生在「初次分诊（triage）」阶段——也就是病人刚进急诊、信息最少、不确定性最高的那一刻。

在这个情境下，o1 需要根据文字描述的主诉、症状、生命体征，整合出一个初步诊断方向。这正好落在大型语言模型的强项区间：结构化文字的模式辨识、跨科别知识的快速整合、以及在信息不完整时仍能给出有条理推理路径的能力。

GPT-4o 虽然也参与了对照测试，但在同样条件下表现不如 o1 稳定，与医师之间的差距也相对较小。研究人员认为，这和 o1 更强的推理链架构有直接关系。

就研究意义来说，这不再只是「AI 在 benchmark 上赢了」的故事——样本来自真实急诊就诊纪录，而非人工设计的测试题，让这份数字具备了一定的临床参考价值。

别被头条牵着走：三个你必须知道的前提

在这份研究引发广泛讨论之前，有三件事值得先放慢速度确认清楚。

**第一，对照组不是急诊专科医师。**测试中用来比较的两位医师是「内科主治医师」，而非具备急诊专科训练的 ER 医师。急诊诊断的核心难度在于高压、多工、信息碎片化的现场判断，内科医师在这个场景本就不是最强的比较基准——研究的比较框架，本身就存在可以被挑战的空间。

**第二，这只是「文字分诊」，不是真实的多模态急诊现场。**研究主任本人明确表示：「这只是文字检伤，不等于真实的多模态 ER。」真实急诊充斥着影像判读、肢体观察、现场沟通、紧急操作——这些都是大型语言模型目前尚无法介入的层面。

**第三，研究团队自己没有主张 AI 已可做生死决策。**发布结果的同时，研究人员同步强调这份研究的局限性，并未建议将 AI 诊断直接应用于临床实践。

动区的角度是：这份研究确实代表了一个真实的技术里程碑——在「结构化文字诊断」这条赛道上，AI 已有能力超越特定情境下的人类医师。但从「实验室准确率」到「医疗现场可部署」之间，还隔着法规责任归属、多模态整合能力、院内系统串接，以及——最难的一关——出错时谁来负责的问题。技术的门槛或许已过，但医疗 AI 真正落地，挑战才刚开始。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
38.78万热度
#
比特币站稳8万关口
9429.4万热度
#
加密市场回升
11.33万热度
#
Aave起诉要求解冻7300万美元ETH
184.35万热度
#
Polymarket每日热点
82.68万热度

哈佛研究登 Science：OpenAI o1 急诊诊断正确率 67%，已打趴两位人类医师

o1 强在哪个环节？

别被头条牵着走：三个你必须知道的前提

热门话题

Gate广场五月交易分享

比特币站稳8万关口

加密市场回升

Aave起诉要求解冻7300万美元ETH

Polymarket每日热点

置顶