10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
哈佛研究登 Science:OpenAI o1 急诊诊断正确率 67%,已打趴两位人类医师
哈佛医学院与 Beth Israel Deaconess Medical Center 联合团队在《Science》期刊发表研究,以 76 位急诊病人为样本,测试 OpenAI o1 模型的诊断决策能力。结果显示 o1 的准确率达 67%,显著优于两位内科主治医师的 55% 与 50%。然而研究人员同步发出重要警语:对照组并非急诊专科医师,研究也未主张 AI 已能在真实情境下做生死决策。
(前情提要:加州大学研究「AI 脑雾」现象:14% 上班族被 Agent、自动化搞疯,离职意愿高四成)
(背景补充:《人类简史》作者:AI 正成为威胁,它攻破了人类文明的作业系统!像核武器)
一篇来自哈佛医学院的论文,悄悄在顶尖学术期刊《Science》挂上名字,让医疗 AI 的讨论从演示展示台正式走进了临床研究圈。
这项由哈佛医学院联合 Beth Israel Deaconess Medical Center 进行的研究,以 76 位真实急诊病人的病历资料为测试样本,分别让 OpenAI o1、GPT-4o,以及两位内科主治医师对每个案例做出诊断。评估标准是:给出「精准或非常接近正确答案」的比例。
最终数字让不少人停下来多看一眼——o1 的准确率达到 67%,两位人类医师则分别落在 55% 与 50%。GPT-4o 也纳入对照,但表现次于 o1。
o1 强在哪个环节?
研究团队特别指出,o1 与人类医师差距最明显的时间点,发生在「初次分诊(triage)」阶段——也就是病人刚进急诊、信息最少、不确定性最高的那一刻。
在这个情境下,o1 需要根据文字描述的主诉、症状、生命体征,整合出一个初步诊断方向。这正好落在大型语言模型的强项区间:结构化文字的模式辨识、跨科别知识的快速整合、以及在信息不完整时仍能给出有条理推理路径的能力。
GPT-4o 虽然也参与了对照测试,但在同样条件下表现不如 o1 稳定,与医师之间的差距也相对较小。研究人员认为,这和 o1 更强的推理链架构有直接关系。
就研究意义来说,这不再只是「AI 在 benchmark 上赢了」的故事——样本来自真实急诊就诊纪录,而非人工设计的测试题,让这份数字具备了一定的临床参考价值。
别被头条牵着走:三个你必须知道的前提
在这份研究引发广泛讨论之前,有三件事值得先放慢速度确认清楚。
**第一,对照组不是急诊专科医师。**测试中用来比较的两位医师是「内科主治医师」,而非具备急诊专科训练的 ER 医师。急诊诊断的核心难度在于高压、多工、信息碎片化的现场判断,内科医师在这个场景本就不是最强的比较基准——研究的比较框架,本身就存在可以被挑战的空间。
**第二,这只是「文字分诊」,不是真实的多模态急诊现场。**研究主任本人明确表示:「这只是文字检伤,不等于真实的多模态 ER。」真实急诊充斥着影像判读、肢体观察、现场沟通、紧急操作——这些都是大型语言模型目前尚无法介入的层面。
**第三,研究团队自己没有主张 AI 已可做生死决策。**发布结果的同时,研究人员同步强调这份研究的局限性,并未建议将 AI 诊断直接应用于临床实践。
动区的角度是:这份研究确实代表了一个真实的技术里程碑——在「结构化文字诊断」这条赛道上,AI 已有能力超越特定情境下的人类医师。但从「实验室准确率」到「医疗现场可部署」之间,还隔着法规责任归属、多模态整合能力、院内系统串接,以及——最难的一关——出错时谁来负责的问题。技术的门槛或许已过,但医疗 AI 真正落地,挑战才刚开始。