《科创板日报》2月12日讯(记者 黄心怡)国产AI大模型春节档密集发布。
在智谱正式推出新一代旗舰模型GLM-5,Minimax亦上线Minimax 2.5。同时,DeepSeek已在网页及App端进行模型的版本更新,上下文窗口由原有的128K直接提升至1M(百万Token)级别,能够单次完成处理一部长篇小说。
《科创板日报》记者获悉,阿里千问的Qwen 3.5、字节跳动的豆包大模型2.0预计也将在春节期间发布。
从已发布的模型来看,编程和智能体能力成为重点。但随着智能体任务复杂度提升,单次任务的token消耗在急剧增加。若无法进一步降低成本,将影响未来AI的规模化落地。
▍MiniMax、智谱瞄准AI编程
2月12日,MiniMax正式上线最新旗舰编程模型MiniMax M2.5。
作为全球首个为Agent场景原生设计的生产级模型,其编程与智能体性能 (Coding & Agentic)比肩国际顶尖模型,直接对标 Claude Opus 4.6,支持PC、App、跨端应用的全栈编程开发,尤其在Excel高阶处理、深度调研、PPT等Office核心生产力场景中均处于行业领先(SOTA)地位。M2.5模型激活参数量仅10B,在显存占用和推理能效比上优势明显,支持 100 TPS超高吞吐量,推理速度远超国际顶尖模型。
而智谱在前一日推出的旗舰模型GLM-5,同样主攻编程与智能体能力。GLM-5参数规模由上一代的355B扩展至744B,激活参数从32B提升至40B。内部评估显示,GLM-5在前端、后端、长程任务等编程开发场景中,平均性能较上一代提升超20%,真实编程体验逼近Claude Opus 4.5水平。

由于GLM-5的超强表现,智谱在港股近四个交易日实现翻倍,从203港元今日最高涨至443港元,收盘价已经逼近Minimax。
过去一年,AI编程发展迅猛。Anthropic此前发布的《2026年智能体编码趋势报告》中指出,传统软件开发的游戏规则正在被彻底改写。一个曾预计需要4到8个月的项目,使用Claude大模型后仅用两周就完成。
《报告》明确指出,程序员这一职业并不会消失,但那些“只会写代码”的程序员将逐渐被市场淘汰。Anthropic的CEO达里奥·阿莫代伊在一年前就曾预言:“未来3~6个月,AI将编写90%的软件代码。”如今,这一预言正逐步转化为现实。
这或将对传统软件行业带来影响。业内分析认为,AI智能体可以直接调用软件底层系统,这动摇了传统软件“按人头订阅”的盈利逻辑,推动行业向“按使用计费”的模式转型。
▍智能体成为最核心的竞争主线
CIC灼识咨询TMT行业相关分析师对《科创板日报》记者表示,国产大模型竞争已从单纯的参数规模竞赛,全面转向以技术差异化、应用场景深耕与成本效率为核心的新阶段。春节期间及近期,各厂商的发布与迭代均围绕此主线展开。
除了腾讯元宝和阿里千问等推出的营销活动带动市场对生态侧的关注,近期字节跳动发布的Seedance2.0、DeepSeek的V4模型和MiniMax上线的Agent平台等,从技术细节来看,无论是基座模型还是Agent的更新,都反映出智能体工程(Agentic Engineering)成为技术路线的重要竞技场,AI企业对于模型的推理效率和长期任务表现更加注重,从大模型厂商当下模型设计的实际来看,产品形态也越来越Agent导向。

图片由AI生成
灼识咨询分析师表示,通用大模型在复杂业务逻辑和专业知识场景中表现有限。智能体通过集成领域知识、工具调用、工作流编排等能力,能够深入垂直场景,提供专业化、自动化的解决方案,真正实现生产力变革。经历近几年的发展,市场普遍对于AI在实际场景中能够带来的真实价值更加关注,智能体是链接模型与用户场景的关键一步,自然也是竞争的焦点。
IDC中国研究经理孙振亚认为,大模型的能力正在从纯粹的生成式输出向智能体能力进化。“可以看到,各家模型厂商都在代码、多模态、长上下文和工具调用能力上做针对性的优化。代码和工具调用能力让模型能够进行执行和操作,多模态能力让模型的感知从文本扩展至图文音视频,长上下文让模型能处理更多的环境和记忆信息。这些能力是模型能不能在更多场景中干活并产出价值的基础,也是智能体能力的重要组成部分。”
▍AI规模化落地仍要过成本关
谈及AI规模应用的挑战,CIC灼识咨询TMT行业相关分析师表示,国内AI生态在芯片、框架、模型、应用层仍存在一些碎片化问题,需要进一步统一。
在成本方面,他指出,从B端(企业端)来看,尽管API调用成本下降,但企业若追求私有化本地部署,一次性硬件投入和长期运维成本依然高昂且需要明确的业务价值闭环来证明投资回报,企业端部署的投入产出比(ROI)仍旧需要进一步验证。
孙振亚也表示成本是一大挑战。随着智能体任务复杂度提升,模型需要处理的上下文越来越长,调用链路越来越深,单次任务的token消耗在急剧增加。成本降不下来,智能体就只能停留在高价值场景,很难真正普及。
另外,可靠性也是瓶颈。灼识咨询分析师称,一些行业对于可靠性要求极高,当前技术未能完全消除幻觉。孙振亚同样指出,当前AI在执行复杂任务时的稳定性还不够,模型依然存在的幻觉问题,使得复杂场景下多步执行非常容易出现错误累积。如果没有可靠性,就谈不上规模化落地。
而在治理与信任方面,孙振亚表示,随着AI从辅助工具走向自主执行,权限管理、审计追溯、责任界定这些治理能力必须跟上。“企业敢不敢让AI去做决策、出了问题谁来负责、AI的操作过程能不能被审计。这些解决了,AI才会真正在各行业大规模落地。”
灼识咨询分析师还指出,在敏感领域,数据出域安全、模型训练数据的合规性与质量、以及智能体交互中的数据隐私保护,也是规模化落地的主要障碍之一。

