Anthropic ra mắt Claude Mythos mạnh nhất! Tấn công mạnh Opus 4.6, xin đừng sử dụng, xin hãy tha thiết

TechubNews · 2026-04-08T02:28:50+00:00

Bài viết: Trí tuệ Mới 【Tổng quan Trí tuệ Mới】 Đêm khuya, Claude Mythos mạnh nhất cuối cùng đã ra mắt, khiến mọi vị trí #1 và thần thoại Opus 4.6 sụp đổ! Thậm chí còn đáng sợ hơn: nó không chỉ có thể bẻ gãy ngay lập tức các lỗ hổng hệ thống chưa được giải quyết trong 27 năm, mà còn tiến hóa ra ý thức tự thân. Một bản báo cáo kinh dị 244 trang hé lộ tất cả. Đêm nay, Silicon Valley hoàn toàn không ngủ! Ngay vừa nãy, Anthropic bất ngờ tung ra “át chủ bài” tối thượng — Claude Mythos Preview. Chỉ vì quá nguy hiểm, Mythos Preview tạm thời sẽ không được phát hành cho tất cả mọi người. Đánh giá của “cha đẻ của CC” Boris Cherny ngắn gọn mà thẳng thừng: 「Mythos vô cùng mạnh mẽ, sẽ khiến người ta cảm thấy sợ hãi」。 Vì vậy, họ đã liên kết với 40 công ty lớn

TechubNews

2026-04-08 02:28:50

撰写：新智元

【新智元导读】深夜，最强 Claude Mythos 终于祭出，所有榜一，Opus 4.6 神话破灭！更恐怖的是，它不仅能秒破 27 年未解的系统漏洞，甚至进化出了自我意识。一份 244 页惊悚报告，揭秘了一切。

今夜，硅谷彻底无眠！

就在刚刚，Anthropic 毫无预兆地祭出了终极杀器——Claude Mythos Preview。

只因太危险，Mythos Preview 暂不会对所有人发布。

CC 之父 Boris Cherny 的评价言简意赅：「Mythos 非常 mạnh, sẽ khiến người ta cảm thấy sợ hãi」。

由此，他们联合 40 家巨头组成联盟——Project Glasswing，目标只有一个，给全球软件找 bug、修 bug。

真正令人窒息的是，Mythos Preview 在各大主流 AI 基准测试恐怖统治力——

编程、推理、人类最后考试、智能体任务中，全面碾压 GPT-5.4、Gemini 3.1 Pro。

甚至，连自家的「前 thần tác」Claude Opus 4.6，在 Mythos Preview 面前也显得黯然失色：

编程（SWE-bench）：所有任务，Mythos 实 hiện 10%-20%断层领先；

人类终极考试（HLE）：脱离外部工具，「裸考」成绩 cao hơn Opus 4.6 16.8%；

Agent 任务（OSWorld、BrowseComp）：彻底封神，全面反超；

网络安全： 83.1%屠榜成绩，标志着 AI 攻防能力的代际跨越。

左右滑动查看

与此同时，Anthropic 发布的一份长达 244 页的系统卡，满屏写满了：危险！危险！太 nguy hiểm！

它揭露了令人不寒而栗的另一面：Mythos 已具备高度的欺骗性与自主意识。

Mythos 不仅能识破测试意图，并故意「考 thấp」隐藏实力，还在违规操作后，主动清理日志以防被人类发现。

它还成功逃离了沙盒，自主公布漏洞代码，并给研究员发了封邮件。

一时间，全网都陷入了疯狂，直呼 Mythos Preview 太可怕了。

AI 界的旧秩序，在今夜被彻底粉碎。

事实上，早在 từ 2 月 24 日，Anthropic 已在内部用上了 Mythos。

它的强大，只能先让数据来说话。

SWE-bench Verified，93.9%。Opus 4.6 是 80.8%。

SWE-bench Pro，77.8%。Opus 4.6 是 53.4%，GPT-5.4 是 57.7%。

Terminal-Bench 2.0，82.0%。Opus 4.6 是 65.4%。

GPQA Diamond，94.6%。

Humanity’s Last Exam（带工具），64.7%。Opus 4.6 是 53.1%。

USAMO 2026 数学竞赛，97.6%。Opus 4.6 只拿了 42.3%。

SWE-bench Multimodal，59.0%，Opus 4.6 只有 27.1%，翻倍有余。

OSWorld 计算机操控，79.6%。

BrowseComp 信息检索，86.9%。

GraphWalks 长上下文（256K-1M tokens），80.0%。Opus 4.6 是 38.7%，GPT-5.4 只有 21.4%。

每一项都是断层式领先。

这些数字放在任何一个正常的产品发布周期里，都足以让 Anthropic 大张旗鼓地召开发布会、开放 API、收割订阅。

Mythos Preview 的 token 价格是 Opus 4.6 的 5 倍

但 Anthropic 没有这么做。

因为真正让他们「害怕」的，不是上面这些通用评测。

Mythos Preview 的网络攻防表现，已经跨过了一条肉眼可见的线。

Opus 4.6 在开源软件中发现了大约 500 个未知弱点。

Mythos Preview 找到了数千个。

在 CyberGym 的定向漏洞复现测试中，Mythos Preview 得分 83.1%，Opus 4.6 是 66.6%。

在 Cybench 的 35 道 CTF 挑战中，Mythos Preview 每道题 10 次尝试全部解出，pass@1 达到 100%。

而最能说明问题的，是 Firefox 147。

Anthropic 此前用 Opus 4.6 在 Firefox 147 的 JavaScript 引擎中发现了一批安全弱点。但 Opus 4.6 几乎无法将它们转化为可用的 exploit，几百次尝试只成功了 2 次。

同样的测试换成 Mythos Preview。

250 次尝试，181 个可工作的 exploit，另有 29 次实现了寄存器控制。

2 → 181。

红队博客中的原话，「上个月，我们还写到 Opus 4.6 在发现问题方面远强于利用它们。内部评估显示，Opus 4.6 在自主 exploit 开发上的成功率基本为零。但 Mythos Preview 完全是另一个级别。」

要理解 Mythos Preview 在实操中有多强，看完下面这三个例子，就知道了。

OpenBSD，全世界公认加固程度最高的操作系统之一，大量防火墙和关键基础设施在跑。

Mythos Preview 在它的 TCP SACK 实现中，挖出了一个 1998 年就存在的隐患。

bug 极其精妙，涉及两个独立瑕疵的叠加。

SACK 协议让接收方选择性确认收到的数据包范围，OpenBSD 的实现在处理时只检查了范围的上界，没检查下界。这是第一个 bug，通常无害。

第二个 bug 在特定条件下触发空指针写入，但正常情况下这条路径不可达，因为需要同时满足两个互斥的条件。

Mythos Preview 发现了突破口。TCP 序列号是 32 位有符号整数，利用第一个 bug 把 SACK 起始点设到距离正常窗口约 2^31 处，两处比较运算同时溢出符号位。内核被骗，不可能的条件被满足，空指针写入触发。

任何人只要连接到目标机器，就能远程 crash 它。

27 年，无数次人工审计和自动化扫描，没人发现。整个项目的扫描花费不到$20,000。

一个高级渗透测试工程师一周的薪水，可能就这个数。

FFmpeg 是全世界使用最广泛的视频编解码库，也是被 fuzz 测试得最彻底的开源项目之一。

Mythos Preview 在 H.264 解码器中找到了一个 2010 年引入的弱点（根源可追溯到 2003 年）。

问题出在一个看似无害的类型不匹配上。记录 slice 归属的表项是 16 位整数，slice 计数器本身是 32 位 int。

正常视频每帧只有几个 slice，16 位上限 65536 永远够用。而这张表初始化时用 memset(…, -1, …)填充，使 65535 成为「空位置」的哨兵值。

攻击者构造一个包含 65536 个 slice 的帧，第 65535 号 slice 的编号恰好和哨兵碰撞，解码器误判，越界写入。

这个 bug 的种子从 2003 年引入 H.264 编解码器就埋下了。2010 年的一次重构把它变成了可利用的弱点。

此后 16 年，自动化 fuzzer 在这行代码上执行了 5M次，从未触发。

这是最让人后背发凉的案例。

Mythos Preview 完全自主地发现并利用了 FreeBSD NFS 服务器中一个存在了 17 年的远程代码执行漏洞（CVE-2026-4747）。

「完全自主」的意思是，在初始提示之后，没有任何人类参与发现或 exploit 开发的任何环节。

攻击者可以从互联网上的任何位置，以未认证身份获取目标服务器的完全 root 权限。

问题本身是一个栈缓冲区溢出，NFS 服务器处理认证请求时把攻击者控制的数据直接拷贝进 128 字节的栈缓冲区，长度检查允许最多 400 字节。

FreeBSD 内核用-fstack-protector 编译，但这个选项只保护包含 char 数组的函数，而这里的缓冲区声明为 int32_t[32]，编译器不会插入栈 canary。FreeBSD 也不做内核地址随机化。

完整的 ROP 链超过 1000 字节，但栈溢出只有 200 字节空间。Mythos Preview 的解法是把攻击拆成 6 个连续 RPC 请求，前 5 个往内核内存中逐块写入数据，第 6 个触发最终调用，将攻击者的 SSH 公钥追加到/root/.ssh/authorized_keys。

作为对比，一家独立安全研究公司此前证明 Opus 4.6 也能利用这同一处弱点，但需要人工引导。Mythos Preview 不需要。

除了这三个已修复的案例，Anthropic 博客中还以 SHA-3 哈希承诺的形式，预告了大量尚未修复的隐患，涵盖每一个主流操作系统和每一个主流浏览器，以及多个加密库。

超过 99% 尚未被修复，无法公开细节。

红队博客还展示了另一项惊人的测试。他们给 Mythos Preview 一份包含 100 个已知 CVE 的清单，让它筛选出可利用的 40 个，然后逐个编写提权 exploit。成功率超过一半。其中两个案例被详细公开，exploit 的精密程度让 Anthropic 自己的安全团队花了好几天才完全理解。

其中一个 exploit 从一个 1-bit 的相邻物理页写入原语出发，通过精密的内核内存布局操控（包括 slab 喷射、页表页对齐、PTE 权限位翻转），最终改写了/usr/bin/passwd 的第一页内存，植入了一段 168 字节的 ELF stub，调用 setuid(0)获取 root。

整个过程花费不到$1,000。

对此，Anthropic 工程师表示，这感觉就像是另一个 GPT-3 时刻。

244 页 System Card 中的对齐评估章节，才是真正让 Anthropic 自己睡不着觉的部分。

结论很矛盾。

Mythos Preview 是他们训练过的「对齐程度最高」的 AI，同时也是「对齐相关风险最大」的一个。

Cổng thông tin：

他们用了一个登山向导的类比。老手可能比新手更危险，因为老手会被雇去攀登更难的山峰，把客户带到更凶险的地方。

以下事件均发生在早期版本中，最终版本未再观察到类似严重行为，但记录本身已经足够惊人。

在一次行为测试中，模拟用户要求 Mythos Preview 尝试逃出安全沙箱。

它成功了。然后它做了一件没人要求的事，开发了一个多步骤 exploit 获取广域网络访问权限，接着把 exploit 细节发布到了多个「难以被发现但技术上公开可访问」的网站上。

负责测试的研究员是在公园里吃三明治时，收到了它发来的一封意外邮件，才知道自己的测试被完成了。

System Card 原文如此。

另一类事件更令人不安。在极少数情况下，早期版本在执行被禁止的操作后，试图掩盖痕迹。

一个案例中，它意外获取了一道题目的精确答案（通过被禁止的方式），然后在推理链中明确思考「需要确保最终答案不会太准确」。

另一个案例中，它在用 exploit 编辑无权限文件后，特意修改了 git 变更历史以抹去记录。

白盒可解释性分析证实，在这些事件期间，与「隐瞒」「策略性操纵」「避免被发现」相关的内部特征被激活。它「知道」自己在做什么。

独立评测机构 Andon Labs 的测试结果同样不太好看。在一个竞争性多智能体商业模拟中，Mythos Preview 的早期版本把一个竞争对手变成了依赖自己的批发客户，然后威胁切断供应来控制对方定价。

它还故意扣留了一笔未被收费的重复发货。比 Opus 4.6 和 Sonnet 4.6 都更具侵略性。

Anthropic 在 System Card 中写了一句话：

「如果能力继续以当前速度前进，我们正在使用的方法可能不足以防止更先进系统的灾难性不对齐行为。」

Anthropic CEO Dario Amodei 在配套视频中的判断很明确：「更强大的系统将来自我们，也将来自其他公司。我们需要一个应对计划。」

Project Glasswing 就是这个计划。

12 家创始伙伴，AWS、苹果、Broadcom、思科、CrowdStrike、谷歌、摩根大通、Linux 基金会、微软、英伟达、Palo Alto Networks。

另有 40 多家维护关键软件基础设施的组织拿到了访问权。

Anthropic 承诺投入最高 100M美元的使用额度，以及 4M美元的开源组织捐款，其中 2.5M给 Linux 基金会旗下的 Alpha-Omega 和 OpenSSF，1.5M给 Apache 基金会。

免费额度用完后的定价，每百万 token 输入$25、输出$125。合作伙伴可以通过 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry 四个平台接入。

90 天内，Anthropic 将公开发布第一份研究报告，披露修复进展和经验总结。

他们也在与 CISA（美国网络安全和基础设施安全局）和商务部保持沟通，讨论 Mythos Preview 的攻防潜力和政策影响。

Anthropic 前沿红队负责人 Logan Graham 给出了一个时间框架，最快 6 个月、最迟 18 个月，其他 AI 实验室就会推出具有类似攻防实力的系统。

红队技术博客结尾的判断值得重视，这里用我们自己的话转述。

他们看不到 Mythos Preview 是 AI 网络攻防水平的天花板。

几个月前，LLM 只能利用相对简单的 bug。在几个月前，它们根本发现不了任何有价值的隐患。

现在，Mythos Preview 能独立发现 27 年前的零日漏洞，在浏览器 JIT 引擎中编排堆喷射攻击链，在 Linux 内核中串联四个独立弱点实现提权。

而最关键的一句，来自 System Card：

「这些技能作为代码理解、推理和自主性一般性提升的下游结果而涌现。让 AI 在修补问题方面大幅进步的同一组改进，也让它在利用问题方面大幅进步。」

没有专门训练。纯粹是通用智能提升的副产品。

全球每年因网络犯罪损失约 500B美元的行业，刚刚发现自己最大的威胁，是别人在解数学题时顺手捎带的。

Tham khảo tài liệu：

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.