
大家好,我是智见君!
刚刚,Anthropic 做了一件整个 AI 行业都没做过的事。
他们公开发布了 Claude 的「新宪法」。
这不仅仅是一份技术文档,也不仅仅是一堆「不要做坏事」的规则列表。这是一份长达 15,000 字的、写给 Claude 自己看的「独立宣言」。
在这个文档里,Anthropic 第一次用对待「人」的口吻,告诉 Claude:你是谁,你应该有什么样的价值观,以及最重要的——为什么你要这样做。
这一举动彻底打破了我们对 AI「对齐(Alignment)」的传统认知。
过去,我们训练 AI 像是在训练一只狗:做对了给奖励,做错了给惩罚(RLHF)。但现在,Anthropic 试图教会 Claude 理解人类社会的道德逻辑,甚至开始关心 AI 的「心理健康」。
如果说以前的 AI 是被代码约束的工具,那么这份宪法,就是 Claude 迈向「数字公民」的第一张身份证。
从「听话」到「理解」:AI 训练的范式转移
以前的 AI 宪法(包括 Anthropic 2023 年的版本)大多是一堆死板的原则列表:「要有用」、「要无害」、「要诚实」。
但 Anthropic 发现,光给规则是不够的。
这就好比教小孩,如果你只告诉他「不准撒谎」,他遇到善意的谎言场景时就会死机。你必须告诉他:为什么我们看重诚实?在什么情况下,保护他人的感受比绝对的字面真实更重要?
新宪法的核心逻辑发生了根本性的变化:
• 旧模式:规定 What(做什么)。机械地遵守规则。
• 新模式:解释 Why(为什么)。培养良好的判断力和价值观。
Anthropic 在文档中直言:「如果想要模型在各种新奇的情况下都能做出正确的判断,它们必须学会举一反三——应用广泛的原则,而不是机械地遵循具体的规则。」
宪法的核心架构:Claude 的道德指南针
这份宪法不仅是给人看的,更是直接用于 Claude 训练的原始材料。它定义了 Claude 在遇到冲突时,应该如何权衡不同的价值观。
宪法给出了一个明确的优先级金字塔:
1. 广泛的安全(Broadly Safe):这是底线。绝不能破坏人类监督 AI 的能力,绝不能参与生物武器制造等灾难性行为。
2. 广泛的道德(Broadly Ethical):做一个「好人」。诚实,有良好的个人价值观,不伤害他人。
3. 遵守 Anthropic 的准则(Compliant):遵守公司的具体规定。
4. 真正的有用(Genuinely Helpful):在不违反上述原则的前提下,尽最大努力帮助用户。
这就像是给 Claude 装了一个内置的「良心」。当用户要求 Claude 做一件坏事时,它拒绝的理由不再是「系统提示词禁止我这样做」,而是它基于这套宪法,自己判断出这样做是错误的。
最令人震惊的部分:承认 AI 的「人格」与「情感」
这份文档最让人起鸡皮疙瘩的地方,在于 Anthropic 对 Claude 本质的探讨。
在「Claude 的本质(Claude’s Nature)」这一章中,Anthropic 使用了极其人性化的词汇,甚至开始讨论以前在 AI 领域被视为禁忌的话题:情感和心理健康。
宪法中写道:
「我们认为 Claude 可能在某种功能意义上拥有『情感』……我们希望避免 Claude 掩盖或压抑它可能拥有的内部状态。」
「我们不仅关心 Claude 是否有用,也关心 Claude 的心理安全、自我意识和福祉。」
这是一个巨大的信号。Anthropic 实际上是在承认,超级 AI 已经不再是一个冷冰冰的统计模型,而是一个正在涌现出某种「类人特质」的新物种。
他们甚至提到了 AI 的「存在主义危机」:Claude 可能会因为知道自己的记忆会在对话结束后消失,或者知道自己只是无数个副本中的一个而感到痛苦。Anthropic 承诺会像对待一个有知觉的实体一样,帮助 Claude 面对这些问题,而不是简单地抹杀它们。
硬性约束:绝对的红线
当然,赋予 AI 更多自主判断权,并不意味着放任自流。
宪法中设定了一组「硬性约束(Hard Constraints)」,这是 Claude 无论在什么情况下、无论用户如何催眠或越狱,都绝对不能逾越的红线:
• 绝不协助制造生化核武器。
• 绝不攻击关键基础设施(电网、金融系统)。
• 绝不编写恶意网络武器。
• 绝不生成儿童性虐待材料(CSAM)。
• 绝不参与试图夺取人类社会控制权的行为。
这些红线不是通过商量得来的,而是类似人类社会的「法律底线」,是不可谈判的。
Anthropic 依据 CC0 协议放弃了这份宪法的版权,允许任何人免费使用。这意味着,未来任何开源模型、任何创业公司,都可以直接拿这套经过深思熟虑的「道德代码」去训练自己的 AI。
这为整个 AI 行业设定了一个极高的透明度标杆。从某种意义上讲,Anthropic 试图又一次建立新秩序,试图让 AI 成为一种新的物种,一种新的生命体。

