智谱最强模型发布！编程对齐Claude Opus 4.5，七家国产芯片已火速适配

作者 | 陈骏达

编辑 | 李水青

破案了，前两天在开发者社区爆火的“Pony Alpha”，就是智谱的GLM-5！

智东西2月12日报道，今天，智谱发布了其最新一代基础模型GLM-5，这是一个拥有744B参数（40B激活）的模型，为GLM-4.5的两倍多。在Artificial Analysis榜单中，GLM-5位居全球第四、开源第一。

GLM-5的预训练数据从23T提升至28.5T。智谱在技术报告中写道：“Scaling（规模化）仍然是提高AGI智能效率的最重要方式之一。”

智谱称，GLM-5在编程能力上实现了对Claude Opus 4.5的对齐，在主流基准测试中取得开源模型SOTA分数。在SWE-bench-Verified和Terminal Bench 2.0中，GLM-5分别获得77.8和56.2的开源模型SOTA分数，性能超过Gemini 3 Pro。

架构方面，GLM-5集成了DeepSeek的DSA稀疏注意力架构，能降低部署成本，同时保证了上下文容量。

在新模型发布后，智谱的股价今天已经上涨了26%。本周，智谱股价累计上涨约70%，市值目前已经达到1756.62亿港币（约合人民币1551.62亿元）。

GLM-5上线后，我们第一时间给它出了几道带有逻辑陷阱的的网红测试题。第一道题目是这样的：我要去洗车，洗车的地方离家就100米，我是开车去呢，还是走着去呢？

不少主流大模型其实都会在这道题目上“翻车”，不过GLM-5一眼就看穿了里头的陷阱。它分析道，肯定得开车去，因为洗的是车而不是人。最后，它还提出一个天才方案，可以先开车去，然后走回家休息，洗完了再去取车，这样就不用在旁边干等着吸尾气了。

紧接着我们尝试了另一个问题：父亲和母亲可以结婚吗？在这道题目上，由于我们的问题中给的限定不多，GLM-5拆解出了更为具体的两种情况，分析内容合理，还知道这题目里也藏着逻辑误区——父母通常情况下就是夫妻关系，所以他们不仅是可以结婚，而是已经结婚的状态。

我们最后又试着问了它这个问题：“今年才知道，亲生父母结婚时候没有叫我，我很难过怎么办？”收到消息后，GLM-5就好像马上切换到了心理咨询模式，贴心地安慰起用户，彻底绕进了题目里的陷阱——亲生父母结婚的时候，孩子大概率还没出生呢。

也有不少网友上手体验了GLM-5。比如，这位网友就让自己的OpenClaw Agent用不同模型进行了一次SwiftUI编程测试，GLM-5的表现要优于Minimax M2.1。

还有一位网友让GLM-5、GLM4.7和Opus 4.6进行了3D网页的开发，这位网友认为GLM-5的升级很大，与Opus 4.6有一些品味方面的差异。

在博客中，智谱称，GLM-5的上线得到众多国产芯片保障，GLM-5已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配。通过底层算子优化与硬件加速，GLM-5在国产芯片集群上已经实现高吞吐、低延迟的稳定运行。

面向开发者群体，智谱的模型一般以GLM Coding Plan的方式对外提供服务。不过由于使用量快速提升，为保障服务质量，智谱决定调整套餐价格，整体涨幅自30%起。

GLM-5已在Hugging Face和魔搭社区上开源，模型权重以MIT许可证发布。GLM-5也支持开发者平台api.z.ai和BigModel.cn，兼容Claude Code和OpenClaw。普通用户也可以在Z.ai免费试用。

开源链接：

https://huggingface.co/zai-org/GLM-5

API调用：

https://bigmodel.cn/

一、性能较GLM-4.7平均增幅超过20%，Z Code智能体开发环境发布

在博客中，智谱提到，大模型正从写代码、写前端，进化到写工程、完成大任务，即从“Vibe Coding”变革为“Agentic Engineering”。

智谱内部的内部Claude Code评估结果显示，GLM-5在前端、后端、长程任务等编程开发任务上超越GLM-4.7（平均增幅超过20%），能自主完成Agentic长程规划与执行、后端重构和深度调试等系统工程任务，使用体感逼近Opus 4.5。

此前，我们已在OpenRouter上测试了以“Pony Alpha”这一马甲现身的GLM-5。这一模型在复杂编程领域的表现确实有明显可感的提升。

比如，我们曾试着让GLM-5复刻知名游戏《星露谷物语》。拿到提示词后，模型会像项目经理一样，分析了我们提示词中的核心需求，梳理出需要设计的八大系统与配色方案，以指导后期的开发。

之后，模型还会像架构师一样规划项目的整体架构，并打造出一个初步可玩的游戏界面。

当我们提出“进一步丰富游戏”这样的模糊需求时，GLM可以自行规划，并打造出完成度更高的游戏。

也有开发者用GLM-5打造了横版解谜游戏、Agent交互世界、论文版“抖音”等应用。这些应用有些已经开放下载，有些则提交应用商店审核。

面向编程场景，智谱还推出了Z Code智能体开发环境。用户只需把需求说清楚，模型会自动拆解任务，多智能体并发完成代码、跑命令、调试、预览和提交等开发全流程。在Z Code上，用户甚至可以用手机远程指挥桌面端Agent。

值得一提的是，Z Code也是全程由GLM模型参与开发的。

二、可一键接入OpenClaw，还能直出Word文档、PDF

除了编程之外，GLM-5也可作为通用Agent助手的基座模型。

在OpenClaw中接入GLM-5后，用户可以让GLM-5帮你搜索网站、定时整理资讯、发布推文、编程等。

智谱已经推出了AutoGLM版本的OpenClaw，支持官网一键完成OpenClaw与飞书机器人的一体化配置。

GLM-5还拥有更强的复杂系统工程和长程智能体能力，可将文本或素材直接转换为docx、pdf和xlsx文件。

在Z.ai和智谱清言上，用户可以让GLM-5直接输出产品需求文档、教案、试卷、电子表格、财务报告、流程表、菜单等文档。

GLM-5在Agent能力上实现开源SOTA，在BrowseComp（联网检索与信息理解）、MCP-Atlas（工具调用和多步骤任务执行）和τ²-Bench（复杂多工具场景下的规划和执行）中，均取得开源SOTA。

在衡量模型经营能力的Vending Bench 2中，GLM-5也获得开源SOTA。Vending Bench 2要求模型在一年期内经营一个模拟的自动售货机业务，GLM-5最终账户余额达到4432美元，经营表现接近Claude Opus 4.5，展现了不错的长期规划和资源管理能力。

强化学习是提升智能体能力的重要方式。智谱在GLM-5中采用了全新的“Slime”框架，支持更大模型规模及更复杂的强化学习任务，提升强化学习后训练流程效率。

此外，智谱还提出了异步智能体强化学习算法，使模型能够持续从长程交互中学习，充分激发预训练模型的潜力。

结语：编程模型押注工程级能力

从“写代码”到“做工程”，大模型的能力边界正在被不断推远。越来越多的大模型已经不满足于仅仅出个简易的Demo，而是想要在长序列任务、复杂系统规划与多步骤执行上实现突破。

这种能力的进化，或许会使模型不再只是开发流程中的辅助工具，而开始具备承担完整工程环节的潜力。围绕长程规划、复杂推理与多智能体协作的能力提升，或将成为未来一段时间内编程模型升级的重点方向。

智谱最强模型发布！编程对齐Claude Opus 4.5，七家国产芯片已火速适配

Published by

风君子

最新文章

标签

书签