春节模型大战,硅谷率先打响:GPT 和 Claude 大更新撞车了

就在刚刚,硅谷 AI 圈上演了一出「火星撞地球」。

OpenAIAnthropic 仿佛商量好似的,同时甩出了自家的重磅更新:Claude Opus 4.6 和 GPT-5.3-Codex。

如果说昨晚之前,我们还在讨论怎么写好 Prompt 辅助工作;那么今天过后,我们可能需要学会如何作为老板去管理 AI 员工。

AI 造 AI,顺便接管你的电脑

前一天晚上,Sam Altman 还在因为对手 Anthropic 的超级碗广告而破防红温,今天就直接扔出王炸:

GPT-5.3-Codex。

技术文档里藏着一句极具分量的话:「这是我们第一个在创造自己的过程中,发挥了关键作用的模型。」

说人话就是:AI 已经学会了自己写代码、自己找 Bug,甚至开始自己训练下一代的 AI 了。

更关键的是,这种自我进化能力,能够直接用跑分数据体现。

在模拟人类操作电脑的 OSWorld-Verified 基准测试上,前代模型只有 38.2% 的准确率,完全不及格。

但这次,GPT-5.3-Codex 直接跳涨到了 64.7%。

要知道,人类的平均水平也就 72%。

这意味着,AI 距离像你一样熟练地甩鼠标、切屏、操作软件,已经很近很近了。

而在 Terminal-Bench 2.0(命令行操作基准测试)中,它更是拿下了 77.3% 的高分,把 GPT-5.2(62.2%)远远甩在身后。

在 SWE-Bench Pro 基准测试(覆盖四种编程语言,不仅抗污染,还全是真实世界的硬核工程难题)当中,GPT-5.3-Codex 也稳定实现 SOTA 水准, token 用量远比以往模型更低。

5.3-Codex 独立构建的能力也毋庸置疑:在 OpenAI 的测试中,用它在几天时间里从零构建了一款包含多张地图的赛车游戏 v2,顺手还搞定了一款管理氧气系统的深海潜水游戏。

5.3-Codex 对模糊意图的理解能力,同样令人深刻。

在构建网页时,它自动把年度计划换算成了打折后的月付价格,甚至还贴心地自动补充了用户评价轮播。

对了,还有一个有趣的细节。

此前外界盛传 OpenAI 对英伟达的 AI 芯片颇有微词,但这次官方博客特地强调:GPT-5.3-Codex 的设计、训练和部署都在 NVIDIA GB200 NVL72 系统上完成。

这一波高情商操作,属实是给足了黄仁勋面子。

告别「金鱼记忆」,Claude 绝地反击

在 GPT-5.3-Codex 发布的几乎同时,Anthropic 也端出了自己的春节大礼包——春节 AI 模型大战,真没想到先从硅谷开打了……

坏消息是,这次既不是大家期待已久的 Claude 模型家族「第五代」,也没有「中杯」Sonnet 模型的更新。这次 Anthropic 直接端出了「超大杯」Claude Opus 4.6。

Introducing Claude Opus 4.6

相比于 OpenAI 在行动力上的激进,Anthropic 今天发布的 Claude Opus 4.6 则是在思考力和可靠性上死磕。

这一波也是直接呼应了昨天超级碗系列广告的主题:Claude is a place to think(Claude 是思考的空间——思考是不需要广告的,可以说直接阴阳了 ChatGPT。)

在各种专业场景的大模型使用中,用户经常遇到上下文腐蚀的痛点,号称的上下文长度实际根本没达到就断点,经常自动切断上下文——没错说你呢 Sonnet 和 GPT……

而 Opus 4.6 在上下文腐蚀上面有了显著的改善:在 MRCR v2(长文本大海捞针)测试中,Claude Opus 4.6 的召回率高达 76%。作为对比,上一代 Sonnet 4.5 只有惨不忍睹的 18.5%。从某种程度上说,这是一个从基本不可用到高可靠的质变。

Anthropic 宣称,Claude Opus 4.6 首次引入了真正可用的 1M 上下文窗口。

这意味着什么?意味着你可以把几百页的财报、几十万字的代码库直接扔给它,它不仅能读完,还能精准地保存和定位上下文细节,告诉你第 342 页脚注里的那个数字有问题。

此外,它现在还支持最高 128k 的输出 Token,可以一次性写完长篇研报或复杂的代码库,而不用因为字数限制被迫截断、重开会话。

除了记性好,Opus 4.6 这次还在智商上实现了碾压:

在 GDPval-AA(一项针对金融、法律等高经济价值任务的评估)中,Opus 4.6 的 Elo 得分比业界第二(OpenAI 的 GPT-5.2)高出了整整 144 分,比前代更是高出 190 分。

在复杂的多学科推理测试 Humanity’s Last Exam 中,它领先所有前沿模型。

在测试寻找互联网「难找信息」能力的 BrowseComp 中,它同样表现最优。

换言之:如果你要处理复杂的商业决策、法律文书或金融分析,Claude 是唯一的优秀选择。

更让打工人眼前一亮的是它的生产力功能。

一方面,Anthropic 这回直接把办公三件套塞进了 Claude,它能根据 Excel 报表数据直接生成 PPT 汇报文件,不仅保留排版风格,连字体和模板都能对齐。在 Claude Cowork 协作环境中,它甚至能进行自主多任务处理。

Claude Code 还推出了实验性的 Agent Teams 功能,让普通开发者也能体验这种「指挥千军万马」的感觉(这也是 2026 年初的 AI 公司们在 Agent 方向上都在押注的路径):

角色分工:你可以指定一个 Claude Session 担任 Team Lead(组长),它不干脏活累活,专门负责拆解任务、分配工单、合并代码;其他的 Session 则是队友(Teammates),各自领任务去干。

独立作战:每个队友都有独立的上下文窗口(不用担心 Token 爆炸),它们甚至能背着你互相发消息(Inter-agent messaging),讨论技术细节,最后只把结果汇报给组长。

并行赛马:这东西有什么用?想象一下查一个顽固 Bug,你可以生成 5 个 Agent,分别验证 5 种不同的假设,像「赛马」一样并行排雷;或者在 Code Review 时,让一个队友扮「安全专家」查漏洞,一个扮「架构师」看性能,互不干扰。

为了展示 Opus 4.6 的极限,Anthropic 的研究员 Nicholas Carlini 搞了个疯狂的实验:充值了 2 万美元的 API 额度,让 16 个 Claude Opus 4.6 组成一个「全自动软件开发团队」。

结果在短短两周内,这群 AI 自主进行了 2000 多个编程会话,从零手写了一个 10 万行代码的 C 语言编译器(基于 Rust)。

这个 AI 写的编译器,还成功编译了 Linux 6.9 内核(涵盖 x86、ARM 和 RISC-V 架构),甚至跑通了 Doom 游戏。

虽然它还不够完美,但这个案例也足够说明:vibe coding 氛围编程仅仅问世一年就过气了……以后我们真的可以直接下命令,然后看着 AI 从零开始完成一整个复杂产品项目了。

定价方面,Anthropic 这次很良心,维持在每百万 Token $5/$25 的基础定价。看来是为了维护住企业级市场这条优势路,铁了心要卷到底。

一个是激进天才,一个是靠谱老牛

知名 AI 评测人 Dan Shipper 在第一时间搞了个「盲测」(Vibe Check),他的评价非常精准:

Claude Opus 4.6 是「高上限,高方差」(High Ceiling, High Variance)。

它像是一个才华横溢但偶尔跳脱的天才。在测试中,它直接解决了一个让 iOS 团队卡了两个月的功能难题;在 LFG Benchmark 中拿到了 9.25/10 的高分。

但它偶尔也会「过度自信」,一本正经地胡说八道。如果你需要突破性的灵感,选它。

GPT 5.3 Codex vs. Opus 4.6: The Great Convergence

GPT-5.3-Codex 则是「高可靠,低方差」(High Reliability, Low Variance)。

它像是一个经验丰富、绝不掉链子的资深工程师。推理速度提升 25%,几乎不犯低级错误,稳健得让人心安。

虽然在创造性任务上略逊一筹(LFG 得分 7.5/10),但在日常的 Coding 和运维任务中,它是最高效的老黄牛。

GPT-5.3-Codex is now available in Codex. You can just build things.

当然,比起选择哪款模型,更重要的是,当 ChatGPT 可以自主修 Bug 甚至操作你的终端,当 Claude 可以一次性吞吐海量文档并精准定位细节时,Prompt Engineering(提示词工程)的重要性正在下降,而 Agent Management(智能体管理)的能力开始浮出水面。

我们不再需要像教小学生一样,把指令拆解得碎碎念。相反,我们需要做的,是学会如何以管理者的身份,去定义目标、审核结果、以及决定在什么时候,把什么任务交给哪位 AI 员工。

这就是 2026 年的新职场。你的团队里混入了一群硅基天才,而你是唯一的碳基老板。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平