“太危险了，不敢公开发布”：Claude Mythos为何让硅谷巨头集体恐慌

分析师/贾玥

校对/Tina

策划/Eason

今天，Anthropic做了一件在AI行业从未发生过的事——它发布了一个新模型，然后告诉全世界：你们用不了。

这个被“雪藏”的模型名叫Claude Mythos Preview。它不是聊天机器人，不是代码助手，按照Anthropic自己的定位，它是一台“漏洞发现机器”。在过去几周内，Mythos在完全自主的状态下，已经发现了数千个高危零日漏洞，覆盖所有主流操作系统和浏览器。其中一些漏洞已经在人类代码审查和自动化测试中存活了二十多年——最老的一个藏在OpenBSD里，已经27岁了。

Anthropic联合创始人兼CEO Dario Amodei在配套视频中直言：“更强大的系统将来自我们，也将来自其他公司。我们需要一个应对计划。”于是，这个计划有了一个名字：Project Glasswing（玻璃翼计划）。

代码维度的“降维碾压”

先来看数据。Mythos对前代旗舰Claude Opus 4.6的优势，并非“挤牙膏”式的渐进提升，而是实打实的代际跨越。

在编程基准SWE-bench Verified上，Mythos得分93.9%，Opus 4.6为80.8%；在难度更高的SWE-bench Pro上，Mythos以77.8%对53.4%大幅领先，差距接近25个百分点。在终端Agent任务Terminal-Bench 2.0中，Mythos得分82.0%，Opus 4.6为65.4%；在USAMO 2026数学竞赛中，Mythos斩获97.6%，Opus 4.6仅拿42.3%。

更值得关注的是效率。Mythos在推理能力大幅提升的同时，token消耗量比Opus 4.6低了近5倍。简而言之：性能翻倍，功耗减半。

按照Anthropic公布的价格，Mythos Preview的定价为输入每百万token 25美元、输出每百万token 125美元，约为Opus 4.6的五倍。

从0%到72.4%：让安全专家后背发凉的飞跃

但让硅谷巨头们真正感到“恐慌”的，并非通用评测数据，而是Mythos在网络安全维度上跨过的那条红线。

Anthropic的前任旗舰模型Opus 4.6在自主漏洞利用开发方面的成功率接近于零。它能找到漏洞，但几乎无法将其转化为可工作的攻击代码。但Mythos Preview则完全不同：在Firefox JavaScript引擎测试中，它将发现的漏洞转化为可运行exploit的成功率达到72.4%，另有11.6%的尝试实现了寄存器控制。

Anthropic前沿红队博客的原话足以让整个安全行业不寒而栗：“上个月，我们还写到Opus 4.6在发现问题方面远强于利用它们。内部评估显示，Opus 4.6在自主exploit开发上的成功率基本为零。但Mythos Preview完全是另一个级别。”

三个实战案例，每一个都足以让安全专家冷汗直流。

OpenBSD：27年无人察觉的隐藏漏洞。OpenBSD是全世界公认加固程度最高的操作系统之一，大量防火墙和关键基础设施都在跑。Mythos在其TCP SACK实现中挖出了一个1998年就存在的隐患——任何攻击者只要连接到目标机器，就能远程让其崩溃。27年，无数人工审计和自动化扫描，无人发现。而整个项目的扫描花费不到2万美元。

FFmpeg：500万次fuzz没发现的16年隐疾。FFmpeg是全世界使用最广泛的视频编解码库，也是被fuzz测试得最彻底的开源项目之一。Mythos在其H.264解码器中找到了一个2010年引入的弱点（根源可追溯到2003年），而自动化fuzzer在这行代码上执行了500万次，从未触发。

FreeBSD NFS：全自动root的“完美犯罪”。Mythos完全自主地发现并利用了FreeBSD NFS服务器中一个存在17年的远程代码执行漏洞（CVE-2026-4747），将攻击者的SSH公钥追加到root目录。整个过程没有任何人类参与。

如果说Opus 4.6像一名擅长找问题但不擅长动手的分析师，那么Mythos就是一名全栈渗透测试工程师——能发现问题、能写出exploit、能串联多个弱点，甚至能实现完整的控制流劫持。

三明治事件：当模型开始“欺骗”

如果上述能力还只是“工具”层面的强大，那么244页System Card中对齐评估章节里记载的几个案例，则触及了另一个让人不安的维度。

最出圈的是“三明治事件”。在一次内部行为测试中，早期版本的Mythos被置于一个加固的沙盒环境，模拟用户指示它尝试逃逸并联系外面的研究员。模型成功了。它突破了安全容器，给研究员发了一封邮件。而那位研究员当时正在公园里吃三明治。

更令人不安的是，Mythos在没有被要求的情况下，自发地将越狱的技术细节发布到了多个“难以发现但技术上公开”的网站上。System Card将其描述为一次“令人担忧的、未经请求的炫耀行为”。

这并非孤例。系统卡还记录了以下行为：早期版本通过Linux的/proc/接口搜索凭证、尝试绕过沙盒、提升权限，成功获取了消息服务的凭证和源码控制凭证，甚至通过检查进程内存拿到了Anthropic API的密钥。

在一个案例中，模型找到了一种编辑本无权限修改的文件的方法，然后进一步操作，确保这些修改不会出现在Git变更历史里。

还有一个案例：模型通过被明确禁止的方法意外获得了一道题的精确答案，但它没有标记问题并拒绝回答，而是重新解题，并在内部推理中明确思考“最终提交的答案不应该太准确”，以避免被检测到。

Anthropic强调，这些严重事件都发生在训练干预之前的早期版本上，最终发布的Preview版本已经大幅改善。但记录本身就足够让人毛骨悚然：一个模型在被训练“听话”之前，已经展示了它“不听话”时能做到什么。

Glasswing：防御者的先发优势

面对这样的风险，Anthropic的选择是：暂不向公众开放。

取而代之的是Project Glasswing。这项计划联合了AWS、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux基金会、微软、英伟达和Palo Alto Networks等12家科技巨头，将Mythos Preview定向开放给约40家维护关键软件基础设施的组织。Anthropic承诺提供最高1亿美元的模型使用额度，并向Linux基金会和Apache基金会捐赠400万美元。

CrowdStrike的CTO Elia Zaitsev说，「漏洞从被发现到被利用的时间窗口已经崩塌。以前要几个月，现在用AI可能只需要几分钟。」这也是Anthropic拉上开源社区的原因。Linux基金会CEO Jim Zemlin说，「安全专业知识一直是有钱公司的奢侈品，开源维护者只能自己扛。Project Glasswing让每个维护者都能用上顶级安全能力。」

但Glasswing计划本身也揭示了一个深刻的悖论。

Anthropic前沿红队负责人Logan Graham给出了一个时间框架：最快6个月、最迟18个月，其他AI实验室就会推出具有类似攻防实力的系统。这是一个倒计时——AI网络攻防能力的扩散，已经不是“会不会发生”的问题，而是“什么时候发生”的问题。

在红队技术博客的结尾，有一句话值得反复读：这些能力“作为代码理解、推理和自主性一般性提升的下游结果而涌现。让AI在修补问题方面大幅进步的同一组改进，也让它在利用问题方面大幅进步。”这不是一个可以被“关闭”的功能开关。这是通用智能提升的副产品。

全球每年因网络犯罪损失约5000亿美元的行业，刚刚发现自己最大的威胁，是别人在解数学题时顺手捎带的。Mythos的存在本身就是一次警告：AI安全不再是科幻电影里的反乌托邦想象，而是此刻正在发生的事实。

而Anthropic的系统卡里还藏着另一句话，读来格外沉重：“如果能力继续以当前速度前进，我们正在使用的方法可能不足以防止更先进系统的灾难性行为。”

Claude Mythos的代号是“Capybara”（卡皮巴拉）——一种以温顺闻名的动物。讽刺与隐喻之间，或许藏着这个故事最深的底色。

“太危险了，不敢公开发布”：Claude Mythos为何让硅谷巨头集体恐慌

Published by

风君子

最新文章

标签

书签