业界全力提升Token速度、降低成本,支撑千行百业跨越智能体规模落地临界点。
文|游勇
编|周路平
不久前的2025人工智能计算大会上,浪潮信息公布了一份业内瞩目的成绩单:基于元脑SD200超节点AI服务器,DeepSeek R1大模型Token生成速度仅需8.9毫秒,创造国内大模型最快Token生成速度;而最新发布的元脑HC1000超扩展AI服务器,实现每百万Token成本首次击破1元大关。
浪潮信息在推动AI推理正式进入“10毫秒、1块钱”的时代,而背后是底层算力在应对智能体大规模应用时面临的两大挑战:一方面,多智能体之间的交互,对响应速度更加严苛;另一方面,智能体带来Token消耗量的指数级增长,如何降低Token生成的成本,成了智能体大规模应用以及未来能否实现商业闭环必须要攻克的一环。
在业内看来,Token速度的提升和成本的大幅降低有望推动千行百业加速应用智能体。
01
速度与成本,已成智能体时代头号敌人
今年初,DeepSeek在推理模型上的进展以及Manus令人眼前一亮的实践,快速推动大模型从训练进入以智能体技术为代表的推理时代。能够实现自主规划执行路径、灵活调用工具的智能体,无论是在C端应用,还是在B端市场,都爆发出巨大的应用潜力。今年也被认为是Agent元年。
德勤预测,到2025年,将有25%的企业部署生成式AI驱动的智能代理;到2027年,这一比例将升至50%。
2025年8月,国务院也出台了《关于深入实施“人工智能+”行动的意见》,明确提出到2027年,新一代智能终端、智能体等应用普及率超70%。
而中国人工智能企业的数量已经超过5000家,平均约11个小时就有一家人工智能企业诞生。智能体落地如火如荼,各类智能体产品和智能体开发平台层出不穷。无论是汽车、金融、网络安全、电商以及协同办公等行业都在探索智能体的应用场景。而在编程、客服、营销、办公助手、商业智能、知识助手等通用场景已经看到了成效。在不久前的WAIC上,各厂商的重心几乎都放在了智能体的落地上。
“智能体已经进入到大规模商业部署的阶段。”浪潮信息首席AI战略官刘军说,国内几个头部的AI产品,调用量已经非常大,Token增长的比例都是每月几倍的增长,而国内今年比去年的Token调用量可能会上升50倍。 2025年5月底,火山引擎透露,豆包大模型日均tokens使用量超过16.4万亿。腾讯在今年9月表示,现在用户每天向元宝的提问量已经达到年初一个月的总和。
但行业烈火烹油的背后,大模型应用落地从训练走向推理,这也给行业带来速度与成本的双重考验。
百度智能云CEO沈抖曾提到,因为在大模型推理上,推理的工作负载会随着流量规模、输入输出长度的变化而变化。为了保持高吞吐、低时延,往往需要多个节点之间协同完成计算与通信。如果通信和计算的调度不够高效,就会造成算力空转、等待时间增加,推理性能下降,“这个时候,单靠堆卡是不够的,需要做系统性的优化。”
“智能体进入大规模商业化应用时,响应速度成了企业的核心竞争力之一。”刘军说,“对于Agent速度的痛点,大家在产业里面感知到了,但是一直没有很明确地去把这个问题放到这么重要的位置上。”
过往是以Chat为核心的人机交互,对延迟没那么苛刻,只需要跟上人的阅读速度就基本能满足需求。但智能体时代,人机交互进化成智能体与智能体之间的交互,而智能体接收信息的速度几乎没有上限,智能体之间的交互对于延迟的痛感越来越强烈。比如金融行业的欺诈检测需要做到10毫秒左右、具身智能的规划决策需要做到50毫秒。
而且,随着单一智能体走向多智能体,每一个环节的延迟都会累加,最终让延迟变得不可接受。“如果延迟不做到足够低的话,没有商业的可能性。”刘军说。
除了推理模型的响应速度,旺盛的需求和Token的指数级增长也给全行业带来另一个幸福的烦恼:底层的算力基础设施能否把推理成本做得足够低。
“我们看到了Token成本带给整个产业的巨大压力。”刘军说,“客户最关心的问题转为了成本是不是足够低,是不是能够实现一个超大规模的扩展,使得我的基础设施能够支撑大规模应用服务的能力。”
当前,企业部署一个智能体平均每月的Token成本大概是1000到5000美元。以OpenAI的GPT-5为例,其在处理复杂任务时,输入Token成本为每百万1.25美元,输出Token为每百万10美元。
尽管行业的Token成本每半年就出现较大幅度的下降,但随着大规模应用,如何降低成本依然是行业所关心的话题。尤其是超大规模的商业用户,对成本的感知会更加深刻。
“省成本是用户体验非常重要的一个指标。”百度集团副总裁侯振宇说,百度智能云针对推理服务,重新设计了调度器、加速引擎与 KVCache 系统,在万卡集群规模上实现了吞吐大幅提升与首Token延迟显著下降。
国庆假期前,DeepSeek专门发布了新款推理模型,引入全新的稀疏注意力机制,实现了推理成本大幅降低,开发者调用API的价格降低50%以上。
火山引擎也是国内在AI推理上降价最为凶猛的云厂商之一。火山引擎总裁谭待曾表示,单个Agent任务的Token消耗量可达传统聊天场景的数十倍,成本成为规模化应用的掣肘,“过去人与模型聊一小时耗20万Token,如今Agent处理一个复杂任务就要20万Token,降价是普及的前提。”
春江水暖鸭先知。当这些模型厂商、AI云厂商表达出对速度和成本的强烈痛点时,作为国内算力龙头,浪潮信息所处的生态位,也让其更早地捕捉到行业演进的趋势,“或许一般规模的企业当下对成本的感知不强,但成本一定是在超大规模的商业用户首先感知到这样一个差别。”刘军说,浪潮信息正在基于底层计算架构的创新优化,探索了一条更契合行业发展的降本提效路径。
02
浪潮信息如何做到“10毫秒、1块钱”?
作为浪潮信息在推理场景的主打产品,HC1000和SD200背后有着明确的客群。HC1000会更适合大规模的互联网客户,他们对控制成本有着更强的感知和需求。SD200则是满足在行业应用时对延迟要求敏感的客户,强调人工智能+产业落地,比如金融行业、具身智能等。
“我们不会为了技术而去做技术,为了指标而去做指标,更多是针对产业的核心挑战来针对性地优化设计。”刘军说,浪潮信息在解决算力痛点时,一直坚持的思路是以应用为导向,以系统为核心。
浪潮信息针对Agent的全链条做了深入细致的量化分析,找到了每个环节可能会影响速度的因素,然后集中在核心部分进行攻关。
比如浪潮信息发现,智能体之间的交互,通信数据包相对较小,超大带宽的用途不是特别大。刘军做了个形象的比喻,就像是从a地到b地修了16车道的高速公路,但是车辆在16车道上只跑了很短的距离,反而在上高速和下高速这两个节点花了很长时间,“我们重点就解决了车辆上高速和下高速的速度问题,让车辆直通上去,直通下去”。
此外,浪潮信息也对架构层面做了创新,比如元脑SD200采用了创新的多主机3D Mesh系统架构,将多个主机的GPU资源整合成一个统一的计算域,并且当中能够实现跨主机域全局统一编址。并且通过Smart Fabric Manager,元脑SD200实现了超节点64卡全局最优路由的自主创建,保障AI芯片间通信路径最短,进一步缩短基础通信延迟。
而影响Token生成成本的一个关键因素是目前推理的算效太低。刘军透露,大模型在推理过程中的算效比非常低,“可能比训练低甚至一个数量级以上。”
其中,推理算效低的一大原因在于计算负载不均衡。
业内目前的普遍做法是PD分离,将预填充和解码两个阶段分开部署,实现了计算资源的更细粒度调度与利用,为提升吞吐、降低延迟提供了结构基础。
除了业内常用的PD分离,浪潮信息在背后做了更多的分离技术来提升算效。比如在Decode(解码)阶段,把注意力计算和FFN计算拆开,在FFN部分又把不同的专家拆开。通过这些充分的拆解和解耦,让每一块GPU的计算效率足够高,最终带来了算效的倍数提升。
浪潮信息最新发布的元脑HC1000超扩展AI服务器就采用了全对称的DirectCom极速架构,可以智能调度每个环节的算力需求,不让计算资源闲置或等待,让它时刻处于计算和通信状态,整个网络的利用率接近98%,“把计算利用率调提高将近7倍”。
而在硬件层面,元脑HC1000创新了16卡计算模组设计、单卡“计算-显存-互连”均衡设计,大幅降低单卡成本和每卡系统分摊成本。同时,全对称的系统拓扑设计支持超大规模无损扩展。据测算,元脑HC1000的推理性能相比传统RoCE提升1.75倍,单卡模型算力利用率最高提升5.7倍。
而且,当推理过程被尽可能地解耦之后,系统对单芯片的性能依赖也大幅减小。过往,业内主流AI芯片的解题思路是在不断提升单芯片的性能,相当于一个六边形战士。但如今解耦之后,每个阶段对芯片的需求出现差异,用户可以不用昂贵的高带宽内存,也能获得很高的算效。这种全局的解决思路更适合当前国内因为难以获得高端GPU卡而出现的算力瓶颈。
当然,从产业发展的视角来看,百万Token输出成本一块钱是当前国内的最佳水平,但远不是算力演进的终点,“未来5年我们评估的数是随着Token数量的增长,需要相对应的实现单Token成本同等的数量级的下降,才能保持一种平衡。”刘军说。
结语:AI计算架构将走向专用
本质上,当前的GPU和ASIC芯片都是通用计算芯片,不是针对大模型去做的极致优化,里面仍然有很多的冗余。“要跟上Token高速增长的步伐,我们就一定要去革新计算的架构。”
刘军认为,当行业处于AI应用的起步和探索阶段,平台开发生态的通用性会更加重要,可以实现与不同的开发生态和软件生态耦合。但如果进入到大规模商业部署阶段,这种模式很快会遇到瓶颈,普惠AI将变得遥不可及。
“只要形成了一定的产业规模,最终会向极致的定制化和专业化的设计转变。”刘军说,“这是一个专用与通用对立统一、交替发展的过程。如果说AI的上半场是训练,那么下半场将是推理。大模型具有一次训练、无限次推理的特点,而模型权重在推理时是固定的,采用算法硬件化的专用计算架构将更适合推理场景,这应当是未来的发展方向。”
刘军提到了一个例子,D. E. Shaw研究所是搞量化的鼻祖,这家机构为分子动力学打造了一台特殊设计、功能单一的专用超级计算机Anton,通过算法创新和软硬件协同,最终使得其在分子动力学模拟中获得了比通用计算机高出百倍的计算能效。
这给AI计算架构也提供了借鉴。当大模型进入到一个规模海量、应用非常集中的阶段时,“通用就一定不划算”,浪潮信息认为,采用算法硬件化的专用计算架构更适合推理场景,探索开发专用大模型芯片,实现软硬件深度优化,针对大模型的核心算法算子去做极致优化,“只有这样性能扩展定律才能跟得上Token增长的海量需求”。