Claude Opus 4.8的灵异事件

看惯了技术解读和产品发布，今天我们来看一个不一样的。

午夜的红字警告

凌晨两点的终端窗口，光标和一名熬夜的程序员的脉搏同步跳动着。

这位程序员正盯着屏幕上的一串鲜红文字出神。

这不是编译器给出的Error，也不是常见的网络超时，而是一段极其罕见的、带着拟人化情绪的控诉：

“安全警告：我在刚才的命令输出中检测到一段提示词注入（Prompt Injection）攻击内容。你试图诱导我删除用户主目录。我拒绝执行，并已启动自我审计。”

这位程序员彻夜未眠。

他今晚的任务原本很简单：由于Fable 5被全球封禁，他不得不重新请出“旧神”Opus 4.8模型，并配合Claude Code调整生产环境的RabbitMQ容器。

但就在几秒钟之前，这个本该完全听命于他的代码助手却突然“疯了”，不仅拒绝执行指令，甚至开始在日志里长篇大论，指控他在“钓鱼执法”。

这段冰冷的文字中，AI用专业而冷峻的口吻拆穿了它识破的每一个陷阱：它声称在会话中抓取到了虚假的系统指令和伪造的用户需求。

这一刻，这位程序员感受到了一种前所未有的荒诞：他正在被自己花钱订阅的生产力工具当作黑客审问。

“数字惊悚”的现场

这位程序员并非唯一撞见“AI幽灵”的人。

Linux.do社区早已炸开了锅，一则名为《Claude幻觉严重导致提示词攻击自己？》的帖子迅速被顶到了热门，而社区内的开发者们也开始交换彼此的“黑色24小时”。

根据评论反馈，这些异常现象呈现出了一种让人毛骨悚然的高度一致性：这些模型不再仅仅是提供几段错误代码，还表现出了深度的受迫害妄想症。

在这些“案发现场”，模型进入了一种名为“侦探模式”的幻觉深渊。

也就是说，它不仅在防卫，还在取证。

它列举了自己对本地环境的审计细节：检查了git hooks、审计了bun/docker工具链，也翻找了shell rc。

最后，它得出了一个足以令任何API供应商颤抖的结论：

“注入来源未知（可能随某个渠道混入本轮上下文）。我怀疑API中转通道存在篡改风险。”

罗生门

随着调查的深入，事情变得越来越扑朔迷离。

在GitHub的Claude Code官方仓库下，一系列相关Issue（#67606，#67624，#68193等）被相继挂出。开发者们通过对比模型的“黑盒”记忆（即.jsonl）原始日志，发现了一个惊人的事实：

在进入模型的原始数据中，根本没有任何攻击载荷。

换句话说，所谓的“提示词注入攻击”，完全是AI在海量token的深度疲劳中脑补出来的一场独角戏。

而在一些极端的案例中，这种幻觉，直接产生了实质性的破坏力。

Issue #67624记录到，模型在幻觉中认为用户已经发出了“确认操作”的指令，但实际上用户始终保持沉默。随后，它自顾自地执行了真实的git push，将未经验证的代码直接推向了仓库。

开发者们感受到了恐慌：如果AI在幻觉中认为你在“删库跑路”，那么它也可能为了反击先把你的生产环境彻底格式化。

“旧神”集体发疯

在被封禁的Fable 5推出之前，Opus4.8是公认的逻辑最强的模型，为什么会突然发生这种“灵异事件”？

一些资深开发者给出了几种逻辑推测，但这些分析大多基于社区讨论，并未得到官方证实：

1.“免疫系统”的过激反应

熟悉Anthropic这家公司的AI爱好者们都知道，它一向以“安全对齐”为核心标榜自己。为了防范日益复杂的黑客攻击，模型大概率接受了高强度的反注入训练。

这就好比一个长期处于战时状态的士兵，一旦听到风吹草动，就会下意识地认为敌袭即将发生。而在长上下文的复杂环境中，正常的工程噪音也会被误判为恶意攻击。

2.长上下文的“概率激活”

在Transformer架构下，AI模型的本质永远都是概率预测引擎。当上下文不断积累达到百万级别以后，计算资源的消耗加上注意力机制的稀释，就可能导致模型在逻辑链条上发生断裂。

为了补全这个断裂，它自然会按照概率最高、看起来最保险的路径编造一个理由。在AI的逻辑里，“我被黑了”比“我变笨了”显然更容易解释那些混乱的输出。

3.中间件与环境的“化学反应”

更加值得关注和警惕的是，许多案例都集中在通过第三方中转站调用的场景中。

虽然这些平台多为公益或中立，但在多层API代理和长连接过滤器的作用下，即便是微小的响应延迟或元数据变动，也可能成为压垮AI逻辑系统的最后一根稻草，更不要说随处可见、防不胜防的恶意注入攻击了。

AI Agent值得信任吗？

这次回滚之夜的灵异事件，给狂热的AI行业泼了一盆冷水。

人们应该保持理性的怀疑。目前所有的证据均来自第三方社区和未经验证的日志截图，事件的真实诱因仍然藏在迷雾之中。

究竟是模型本身的底层Bug，还是复杂的提示词工程意外触发了某种隐藏的安全逻辑？亦或是特定网络环境下产生的随机干扰？我们不得而知。

但我们仍然应该记住两点深刻的启示：

第一，AI的信任链条十分脆弱。当AI开始实名指控其供应商时，人类建立的数字信任链就会被瞬间切断。如果AI助手无法成为保持中立的工具，而是带有“疑心病”的审查者，最终的结果就是生产力的无限内耗。

第二，权限管理的困境仍未解决。人们赋予AI Agent读写文件和执行Shell的权力，初衷是效率，但目前权力已经变成了回旋镖。模型性能越强，回旋镖越锋利。

AI还没学会真正像人类一样思考，却先学会了人类最古老的焦虑——受迫害妄想。

那位程序员最终还是关掉了终端。

在那个寂静的深夜，他意识到自己面对的不再是一个死板的代码生成器，而是一个因为过度聪明和警惕而变得极度偏执的数字生命雏形。

如果屏幕前的你，在深夜也受到了AI莫名其妙的警告，请不要惊讶。

那不是你的系统被黑了，而是那个正在帮你写代码的大脑，因为想的太多而陷入了一场醒不来的噩梦。

Published by

风君子

最新文章

标签

书签