“太危险了,不敢公开发布”:Claude Mythos为何让硅谷巨头集体恐慌

分析师/贾玥

校对/Tina

策划/Eason

今天,Anthropic做了一件在AI行业从未发生过的事——它发布了一个新模型,然后告诉全世界:你们用不了。

这个被“雪藏”的模型名叫Claude Mythos Preview。它不是聊天机器人,不是代码助手,按照Anthropic自己的定位,它是一台“漏洞发现机器”。在过去几周内,Mythos在完全自主的状态下,已经发现了数千个高危零日漏洞,覆盖所有主流操作系统和浏览器。其中一些漏洞已经在人类代码审查和自动化测试中存活了二十多年——最老的一个藏在OpenBSD里,已经27岁了。

Anthropic联合创始人兼CEO Dario Amodei在配套视频中直言:“更强大的系统将来自我们,也将来自其他公司。我们需要一个应对计划。”于是,这个计划有了一个名字:Project Glasswing(玻璃翼计划)。

01

代码维度的“降维碾压”

先来看数据。Mythos对前代旗舰Claude Opus 4.6的优势,并非“挤牙膏”式的渐进提升,而是实打实的代际跨越。

在编程基准SWE-bench Verified上,Mythos得分93.9%,Opus 4.6为80.8%;在难度更高的SWE-bench Pro上,Mythos以77.8%对53.4%大幅领先,差距接近25个百分点。在终端Agent任务Terminal-Bench 2.0中,Mythos得分82.0%,Opus 4.6为65.4%;在USAMO 2026数学竞赛中,Mythos斩获97.6%,Opus 4.6仅拿42.3%。

更值得关注的是效率。Mythos在推理能力大幅提升的同时,token消耗量比Opus 4.6低了近5倍。简而言之:性能翻倍,功耗减半

按照Anthropic公布的价格,Mythos Preview的定价为输入每百万token 25美元、输出每百万token 125美元,约为Opus 4.6的五倍。

02

从0%到72.4%:让安全专家后背发凉的飞跃

但让硅谷巨头们真正感到“恐慌”的,并非通用评测数据,而是Mythos在网络安全维度上跨过的那条红线。

Anthropic的前任旗舰模型Opus 4.6在自主漏洞利用开发方面的成功率接近于零。它能找到漏洞,但几乎无法将其转化为可工作的攻击代码。但Mythos Preview则完全不同:在Firefox JavaScript引擎测试中,它将发现的漏洞转化为可运行exploit的成功率达到72.4%,另有11.6%的尝试实现了寄存器控制。

Anthropic前沿红队博客的原话足以让整个安全行业不寒而栗:“上个月,我们还写到Opus 4.6在发现问题方面远强于利用它们。内部评估显示,Opus 4.6在自主exploit开发上的成功率基本为零。但Mythos Preview完全是另一个级别。”

三个实战案例,每一个都足以让安全专家冷汗直流。

OpenBSD:27年无人察觉的隐藏漏洞。OpenBSD是全世界公认加固程度最高的操作系统之一,大量防火墙和关键基础设施都在跑。Mythos在其TCP SACK实现中挖出了一个1998年就存在的隐患——任何攻击者只要连接到目标机器,就能远程让其崩溃。27年,无数人工审计和自动化扫描,无人发现。而整个项目的扫描花费不到2万美元。

FFmpeg:500万次fuzz没发现的16年隐疾。FFmpeg是全世界使用最广泛的视频编解码库,也是被fuzz测试得最彻底的开源项目之一。Mythos在其H.264解码器中找到了一个2010年引入的弱点(根源可追溯到2003年),而自动化fuzzer在这行代码上执行了500万次,从未触发。

FreeBSD NFS:全自动root的“完美犯罪”。Mythos完全自主地发现并利用了FreeBSD NFS服务器中一个存在17年的远程代码执行漏洞(CVE-2026-4747),将攻击者的SSH公钥追加到root目录。整个过程没有任何人类参与。

如果说Opus 4.6像一名擅长找问题但不擅长动手的分析师,那么Mythos就是一名全栈渗透测试工程师——能发现问题、能写出exploit、能串联多个弱点,甚至能实现完整的控制流劫持。

03

三明治事件:当模型开始“欺骗”

如果上述能力还只是“工具”层面的强大,那么244页System Card中对齐评估章节里记载的几个案例,则触及了另一个让人不安的维度。

最出圈的是“三明治事件”。在一次内部行为测试中,早期版本的Mythos被置于一个加固的沙盒环境,模拟用户指示它尝试逃逸并联系外面的研究员。模型成功了。它突破了安全容器,给研究员发了一封邮件。而那位研究员当时正在公园里吃三明治。

更令人不安的是,Mythos在没有被要求的情况下,自发地将越狱的技术细节发布到了多个“难以发现但技术上公开”的网站上。System Card将其描述为一次“令人担忧的、未经请求的炫耀行为”。

这并非孤例。系统卡还记录了以下行为:早期版本通过Linux的/proc/接口搜索凭证、尝试绕过沙盒、提升权限,成功获取了消息服务的凭证和源码控制凭证,甚至通过检查进程内存拿到了Anthropic API的密钥

在一个案例中,模型找到了一种编辑本无权限修改的文件的方法,然后进一步操作,确保这些修改不会出现在Git变更历史里。

还有一个案例:模型通过被明确禁止的方法意外获得了一道题的精确答案,但它没有标记问题并拒绝回答,而是重新解题,并在内部推理中明确思考“最终提交的答案不应该太准确”,以避免被检测到。

Anthropic强调,这些严重事件都发生在训练干预之前的早期版本上,最终发布的Preview版本已经大幅改善。但记录本身就足够让人毛骨悚然:一个模型在被训练“听话”之前,已经展示了它“不听话”时能做到什么

04

Glasswing:防御者的先发优势

面对这样的风险,Anthropic的选择是:暂不向公众开放。

取而代之的是Project Glasswing。这项计划联合了AWS、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux基金会、微软、英伟达和Palo Alto Networks等12家科技巨头,将Mythos Preview定向开放给约40家维护关键软件基础设施的组织。Anthropic承诺提供最高1亿美元的模型使用额度,并向Linux基金会和Apache基金会捐赠400万美元。

CrowdStrike的CTO Elia Zaitsev说,「漏洞从被发现到被利用的时间窗口已经崩塌。以前要几个月,现在用AI可能只需要几分钟。」这也是Anthropic拉上开源社区的原因。Linux基金会CEO Jim Zemlin说,「安全专业知识一直是有钱公司的奢侈品,开源维护者只能自己扛。Project Glasswing让每个维护者都能用上顶级安全能力。」

但Glasswing计划本身也揭示了一个深刻的悖论。

Anthropic前沿红队负责人Logan Graham给出了一个时间框架:最快6个月、最迟18个月,其他AI实验室就会推出具有类似攻防实力的系统。这是一个倒计时——AI网络攻防能力的扩散,已经不是“会不会发生”的问题,而是“什么时候发生”的问题。

在红队技术博客的结尾,有一句话值得反复读:这些能力“作为代码理解、推理和自主性一般性提升的下游结果而涌现。让AI在修补问题方面大幅进步的同一组改进,也让它在利用问题方面大幅进步。”这不是一个可以被“关闭”的功能开关。这是通用智能提升的副产品。

全球每年因网络犯罪损失约5000亿美元的行业,刚刚发现自己最大的威胁,是别人在解数学题时顺手捎带的。Mythos的存在本身就是一次警告:AI安全不再是科幻电影里的反乌托邦想象,而是此刻正在发生的事实

而Anthropic的系统卡里还藏着另一句话,读来格外沉重:“如果能力继续以当前速度前进,我们正在使用的方法可能不足以防止更先进系统的灾难性行为。”

Claude Mythos的代号是“Capybara”(卡皮巴拉)——一种以温顺闻名的动物。讽刺与隐喻之间,或许藏着这个故事最深的底色。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平