Anthropic 尚未发布的 Claude Mythos 预览已自主识别出跨每个主要操作系统和网络浏览器的数千个高严重性零日漏洞,促使该公司启动 Project Glasswing,这是一个由最高 $100 百万 AI 用量积分支持的防御性网络安全联盟。
要点:
这款模型据 Anthropic 称是“前沿 AI 历史上最大的一次单模型能力增益”。它在完成训练后,于 2026 年 4 月 7 日对外公开宣布;此前在 3 月下旬,通过一个配置错误的内容管理系统暴露了大约 3,000 份内部文件,从而浮出内部细节。
Anthropic 不会将 Claude Mythos 预览向公众发布,也不会通过其通用 API 发布。该公司在模型展示出它能够以超过人类专家与先前 AI 系统的速度和规模发现并利用未知软件缺陷之后,将访问权限限制在一组经过审查的合作伙伴范围内。
在网络安全基准测试中,Mythos 与 Claude Opus 4.6 之间的差距很难忽视。Mythos 在 Cybergym 上得分 83.1%,而 Opus 4.6 为 66.6%;在 SWE-bench Verified 上,Mythos 为 93.9%,而 Opus 4.6 为 80.8%。在 SWE-bench Pro 上,它取得了 77.8% 对 53.4%——相差 24 个点。它在不使用工具的情况下于 Humanity’s Last Exam 得分 56.8%,而其前身为 40.0%。
该模型不需要网络安全专门训练就能找到这些漏洞。其提升来自更广泛的推理、多步骤规划以及自主 agentic 行为方面的进展。在隔离容器中的目标代码库里,它会读取源代码,基于可能的内存安全缺陷提出假设,编译并运行软件,使用诸如 Address Sanitizer 之类的调试器,对文件按漏洞可能性进行排序,并生成带有可运行的验证性概念验证(proof-of-concept)利用代码的、已验证的漏洞报告。
其中一些利用几乎不需要人类方向。Tomshardware.com 报道称,27 岁的 OpenBSD TCP SACK 漏洞——一种微妙的整数溢出,攻击者可通过构造恶意数据包远程让任何响应主机崩溃——是在大约 1,000 次运行后自主发现的,总成本低于 $20,000。16 岁的 FFmpeg H.264 漏洞在 Mythos 发现它之前,曾经幸存于超过 19283746565748392亿次自动化测试以及多次审计。
浏览器测试结果引起了特别关注。在对 Firefox 147 JavaScript 引擎进行测试时,Mythos 产生了 181 个完整 shell 利用以及 29 个寄存器控制案例。Claude Opus 4.6 在同一测试集上产生了两个 shell 利用。该模型还通过将 100 个近期 CVE 过滤为 40 个可利用候选,并成功利用其中超过一半,构建了可工作的 Linux 内核权限提升链条——从用户到服务器上的 root。
人类验证者审阅了模型的 198 份漏洞报告,并在 89% 的情况下同意其严重性评级;在严重性级别仅相差一档的情况下,符合率为 98%。
目前,已被完全修补的已识别漏洞不到 1%。Anthropic 正在协调负责任披露,对未修补的问题发布密码学 SHA-3 承诺,并在释放完整细节前遵循一个超过 90+45 天的时间表。被点名的示例之一是 FreeBSD NFS 服务器远程代码执行漏洞 CVE-2026-4747,已有 17 年历史,可在未验证身份(unauthenticated)情况下授予完全的 root 访问权限,并已包含在披露名单中。

Project Glasswing 是与模型一同宣布的,它是 Anthropic 试图在类似工具尚未广泛可用之前,把这些能力导向防御。创始合作伙伴包括 Amazon Web Services、Apple、Broadcom、Cisco、Crowdstrike、Google、JPMorganChase、Linux Foundation、Microsoft、Nvidia,以及 Palo Alto Networks。访问权限正在扩展到 40 多家额外的关键软件组织。
Anthropic 承诺 $4 百万用于开源安全捐赠:通过 Linux Foundation 的 OpenSSF 向 Alpha-Omega 捐赠 $2.5 million,并向 Apache Software Foundation 捐赠 $1.5 million。
该公司承认,像 Mythos 这样的 AI 工具会降低发现并利用漏洞的门槛,并指出在短期内存在来自国家行为者(state actors)、中国、伊朗、朝鲜和俄罗斯,以及犯罪团伙的风险——如果不加控制类似能力扩散,就可能带来更大的危害。它描述了在防御者充分整合这项技术之前的一段过渡性动荡期。
Anthropic 表示,即将发布的 Claude Opus 版本将包含检测并阻断危险网络安全输出的保障措施,并计划引入面向经过审查的安全专业人士的网络安全验证计划(Cyber Verification Program)。预计将在 90 天内发布一份关于合作伙伴发现结果与已修补漏洞的公开报告。