Claude Mythos:我太强了,强到不敢让你们用

头图由AI辅助生成

编译 | 陈佳

编辑 | 程茜

智东西4月8日消息,Anthropic今日发布新一代模型Claude Mythos Preview及配套安全项目Project Glasswing。该模型最强的能力是,它能找到人类专家和自动化工具都没发现的软件漏洞。OpenBSD是公认最难攻破的操作系统之一,它在里面找到了一个藏了27年的漏洞;FFmpeg的某行代码被自动化测试工具触发500万次,却始终未能识别出问题,而该模型则成功发现了其中的漏洞

但因相关防护机制尚未成熟,该模型当前不对公众开放仅在由12家机构组成的小范围合作体系中提供访问Anthropic同时承诺提供最高1亿美元(约合人民币6.87亿元)的模型使用额度,用于防御性网络安全研究。

Anthropic官方发布Project Glasswing项目的社交媒体X平台推文

在专业漏洞复现测试CyberGym上,它的得分是83.1%,而Anthropic此前最强的公开模型Opus 4.6是66.6%。编程能力方面,在衡量软件工程任务的SWE-bench Verified测试中,它得了93.9%,Opus 4.6是80.8%。Anthropic称,新模型的能力已经达到“可以与最顶尖人类安全专家竞争”的水平

Anthropic还发布了Firefox JS shell环境下的漏洞利用专项测试结果。数据显示,Mythos Preview在该场景下成功生成完整可利用exploit(漏洞利用代码)的比例高达72.4%,另有11.6%的测试实现了寄存器控制;而前代模型Opus 4.6在相同任务中的成功率不足1%。这意味着Mythos Preview的漏洞利用能力较Opus 4.6提升了近80倍。

Claude三款模型在Firefox JS shell环境下的漏洞利用能力对比测试(图源:Anthropic)

与此同时,Anthropic还公布了配套安排,包括向开源社区提供400万美元(约合人民币2747.2万元)资助、在90天内披露阶段性研究成果,并推动围绕漏洞披露、供应链安全等议题的行业协作。整体来看,这一项目不仅围绕模型能力展开,也延伸至治理机制与行业规范层面。

这次正式发布,有一个并不体面的前情。今年3月底,Anthropic内容管理系统出现配置错误,导致近3000份未发布的内部资产意外暴露在可公开搜索的数据存储中。泄露内容显示,Anthropic内部已将该模型命名为Claude Mythos,并定性为“迄今为止最强大的AI模型”,同时在文件中直接警告其“带来了前所未有的网络安全风险”。

而就在Glasswing计划正式发布前约一周,Anthropic又因Claude Code软件包2.1.88版本的打包错误,意外泄露了近2000个源代码文件、逾50万行代码,随后在尝试清理时又误将约8100个GitHub代码仓库发出下架通知,后经紧急撤回才平息。

系统卡:https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf

一、挖出藏了27年的老漏洞,发现500万次测试都被遗漏的漏洞

Anthropic在官网披露,其新训练的前沿模型Claude Mythos Preview已在所有主流操作系统和所有主流浏览器中发现数千个零日漏洞,其中多个被定级为高危。

该公司称,该模型的漏洞挖掘能力已可超越“除最顶尖安全专家之外的所有人类”,且上述工作全程由模型自主完成,无需人工引导。

官网提供了三个已修复漏洞的具体案例。

其一,该模型在以安全性著称、常用于运行防火墙等关键基础设施的OpenBSD中发现了一个存在27年的漏洞,攻击者只需建立连接即可远程崩溃运行该系统的任意机器。

其二,在被大量软件用于视频编解码的FFmpeg中,发现了一个已存在16年的漏洞,此前自动化测试工具曾命中该行代码500万次,始终未能识别。

其三,在运行全球大多数服务器的Linux内核中,模型自主发现并串联多个漏洞,实现了从普通用户权限到完全控制目标机器的提权。

三项漏洞均已报告给相关软件维护方并完成修补,其余已发现的漏洞细节以加密哈希形式提交,待修复到位后陆续公开。

在CyberGym漏洞复现基准测试中,Mythos Preview得分83.1%,Anthropic此前最强公开模型Opus 4.6为66.6%。该公司说,随着AI能力以当前速度推进,此类攻击性能力将不可避免地向更广泛行为者扩散,其中不排除无意愿负责任部署的行为者,届时对经济、公共安全和国家安全的潜在冲击将是严峻的。

Claude Mythos Preview与Claude Opus 4.6在CyberGym网络安全漏洞复现基准测试中的得分对比(图源:Anthropic)

Claude Mythos Preview与Claude Opus 4.6在多项代码能力基准测试中的得分对比(图源:Anthropic)

Claude Mythos Preview与Claude Opus 4.6在多项通用推理能力基准测试中的得分对比(图源:Anthropic)

Claude Mythos Preview与Claude Opus 4.6在自主搜索与计算机操作类基准测试中的得分对比(图源:Anthropic)

二、联合多家机构启动Glasswing,提供最高1亿美元额度支持安全研究

Project Glasswing由Anthropic牵头发起,亚马逊云科技(AWS)、苹果、博通(Broadcom)、思科(Cisco)、网络安全公司CrowdStrike、谷歌、摩根大通(JPMorganChase)、开源基金会Linux Foundation、微软、英伟达、网络安全公司Palo Alto Networks共12家机构作为创始合作伙伴加入。

Project Glasswing发起合作方企业Logo(图源:Anthropic )

Anthropic承诺在研究预览期间提供最高1亿美元(约合人民币6.87亿元)的Mythos Preview模型使用额度,覆盖上述合作方的防御性安全工作。在12家创始伙伴之外,目前已有超过40家构建或维护关键软件基础设施的组织获得扩展访问权限,用于扫描和加固各自的第一方系统及所依赖的开源系统。

在资金支持之外,Anthropic另行向开源生态提供400万美元(约合人民币2747.2万元)直接捐款:其中250万美元(约合人民币1717万元)捐赠给Linux Foundation旗下的Alpha-Omega和OpenSSF,150万美元(约合人民币1030.2万元)捐赠给Apache Software Foundation,用于帮助开源软件维护者应对AI时代下网络安全威胁格局的变化。

有意申请访问权限的开源维护者可通过Claude for Open Source项目单独提交申请。

研究预览期结束后,Mythos Preview将向参与机构提供商业化访问,定价为每百万tokens输入25美元(约合人民币171.7元)、输出125美元(约合人民币858.5元),接入渠道包括Claude API、Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry。

就使用场景而言,官网将合作方的工作重点列为本地漏洞检测、二进制文件黑盒测试、端点安全加固和系统渗透测试,所涉及的基础系统覆盖全球相当规模的共享网络攻击面。

各合作方已就Mythos Preview的测试效果陆续发声:Cisco、AWS、Microsoft、CrowdStrike、Palo Alto Networks等均公开确认该模型在其内部安全工作中已发现此前版本遗漏的复杂漏洞,Google则将通过Vertex AI平台向项目参与者提供模型访问。

三、模型暂不对外发布,防护机制尚未就绪是主要原因

Anthropic不计划将Claude Mythos Preview面向公众开放。官方给出的理由是:要实现Mythos级别模型的安全大规模部署,前提是开发出能够检测并屏蔽模型最危险输出的网络安全防护措施,而这套机制目前尚未就绪。

在过渡安排上,Anthropic计划先在即将推出的Claude Opus模型上部署和测试上述防护机制。

其逻辑是:Opus模型不具备Mythos Preview同等级别的风险,可以作为改进和完善防护措施的相对低风险载体,待机制成熟后再向Mythos级别的模型推广。

对于合规工作受新防护措施影响的安全专业人员,Anthropic称将开放一个名为“Cyber Verification Program”的专项申请渠道,但具体细节尚未公布。

Anthropic官方博客称,随着AI能力持续推进,此类进攻性能力“不久之后”将不可避免地向更广泛行为者扩散,其中不排除不承诺负责任部署的行为者,潜在后果涉及经济、公共安全和国家安全。

与此同时,Anthropic称已就Mythos Preview的进攻性和防御性网络能力与美国政府官员展开持续讨论,并称美国及其盟友必须在AI技术上保持“决定性领先”,政府在评估和缓解AI相关国家安全风险方面具有不可或缺的作用。

四、承诺90天内公开研究成果,推动建立跨行业网络安全规范体系

Anthropic承诺将在90天内发布公开报告,内容涵盖研究阶段的主要发现、已修复漏洞情况及可对外披露的系统改进成果。项目合作伙伴也将在各自能力允许的范围内互相分享信息与最佳实践。

官网将项目整体持续时间表述为“数月”,并指出前沿AI能力本身“可能在未来几个月内大幅推进”,网络安全防御方(cyber defenders)因此需要立即行动,而非等待。

行业规范层面,Anthropic列出了拟与领先安全组织合作推动的具体议题,包括漏洞披露流程、软件更新流程、开源与供应链安全、软件开发生命周期与安全设计实践、受监管行业的安全标准、漏洞分类处理的规模化与自动化,以及补丁自动化。官网未披露上述议题的具体推进时间表或已确认的合作方名单。

机构建设层面,Anthropic提出了一个中期设想:建立一个独立的第三方机构,汇聚私营和公共部门组织,作为大规模网络安全项目持续推进的长期载体。该公司同时公开邀请其他AI行业成员加入,共同参与行业标准的制定。

Anthropic将Project Glasswing定性为“一个起点”,并称没有任何单一机构能够独立解决这些网络安全问题,前沿AI开发者、软件企业、安全研究人员、开源维护者和各国政府均在其列。

结语:不追能力上限,先管安全底线

从Glasswing项目披露的信息来看,Anthropic并未将重点放在继续放大模型能力本身,而是将更多精力转向能力如何被约束和使用。Claude Mythos Preview所展现出的漏洞挖掘与利用能力,已经超出传统工具的使用范畴。

Glasswing给出的路径是,在能力尚未完全匹配防护机制之前,通过小范围合作和集中资源投入进行验证。这一方式并不改变模型能力本身,但改变了能力的扩散节奏。配套的资金支持、信息披露和规范讨论,也在尝试将单一公司的技术问题,转化为跨机构协作的安全议题。

从更长周期看,这一项目的意义不在于短期内发现多少漏洞,而在于是否能够形成一套可复制的运行和治理框架。随着模型能力继续提升,类似Glasswing的机制是否成为行业常态,将直接影响高能力AI系统的实际落地路径。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平