Claude Opus 4.1深夜狙击OpenAI,SWE-bench编程卷到74.5%,预告更强大模型

编译 | 王涵

编辑 | 漠影

智东西8月6日消息,今天,Anthropic正式发布Claude Opus 4.1

Anthropic公告,新模型智能体工具调用、智能体编程与多语言问答能力全面超越OpenAI o3,Anthropic还计划在未来数周内为模型推出更大幅度的改进。

曝Meta要收购AI视频创企!斯坦福华人女博士创办,主攻电影级AI视频

▲Anthropic推文截图(来源:X)

Opus 4.1现已面向付费Claude用户Claude Code提供,该版本同时登陆API、Amazon Bedrock和Google Cloud的Vertex AI平台开发者可通过API使用claude-opus-4-1-20250805版本

在定价上,Opus 4.1与Opus 4保持一致,输入15美元(约合人民币107.8元)/百万token,输出75美元(约合人民币538.8元)/百万token。

曝Meta要收购AI视频创企!斯坦福华人女博士创办,主攻电影级AI视频

性能方面,Opus 4.1在SWE-bench Verified上的顶级编码性能提升至74.5%,该版本还增强了Claude的深度研究与数据分析能力,特别是在细节追踪和智能体搜索方面。

曝Meta要收购AI视频创企!斯坦福华人女博士创办,主攻电影级AI视频

在GitHub上,相较于Opus 4,Claude Opus 4.1在多数能力维度均有提升,其中多文件代码重构的性能进步尤为显著。

Opus 4.1在智能体工具调用与多语言问答能力上超越OpenAI o3,在智能体编程方面的分数为74.5%43.3%大幅超越OpenAI o3和Gemini 2.5 Pro,但其在视觉推理和数学能力上与OpenAI o3和Gemini 2.5 Pro还有一定的差距。

曝Meta要收购AI视频创企!斯坦福华人女博士创办,主攻电影级AI视频

Anthropic的公告中透露,Rakuten Group发现Opus 4.1擅长在大型代码库中精确定位修正点,且不会进行不必要的调整或引入错误,其团队更倾向在日常调试任务中使用这种精准性。

Windsurf报告显示,在其初级开发者基准测试中,Opus 4.1相比Opus 4实现了1个标准差的提升,性能跃升幅度相当于从Sonnet 3.7升级至Sonnet 4。

结语:大模型竞赛进入“智能体时代”

从基准测试结果可以看出,Anthropic这次推出的Claude Opus 4.1,主要在大模型的智能体相关能力上,例如智能体编程和智能体工具调用等方面,进行了升级侧重。

也从侧面反映出,如今的大模型开始朝着“给智能体提供更智能的大脑”的方向升级迭代,为智能体的进一步发展夯实地基。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平