人工智能已步入发展深水区。记者获悉,当前AI(人工智能)的发展正从以模型训练为核心的阶段,逐步迈入训练与推理并重,甚至推理占比显著提升的新阶段。
训练是大模型的学习过程,目标是构建或优化模型参数;而推理则是大模型的应用过程,目标是应用已训练好的模型。根据华为公司提供的数据,随着Agent(智能体)应用的普及,当前推理算力需求已超过训练。GPT-5开放首周20亿次/分钟,70%的请求为复杂任务推理(如代码生成、多步规划);而国内火山引擎的日均Token(令牌)调用量已达16.4万亿,其中70%以上来自线上推理而非训练。
然而,尽管推理需求逐步旺盛,但国内AI推理能力的发展仍受限于AI基础设施基础弱、投资少,以及算力卡阉割、算力卡涨价、HBM(高带宽内存)涨价等一系列因素。
记者获悉,当前金融领域AI推理能力的瓶颈开始显现。华为数据存储产品线AI存储首席架构师李国杰表示,从银行业来看,核心有三个问题:一是“推不动”,投研分析、舆情分析等场景会涉及到较多的长序列输入,比如一份投研报告更是上兆级别,所以“推不动”的问题经常出现;二是“推得慢”,核心就是并发上不去,上去之后每Token时延特别长;三是“推得贵”,原因是需要耗费大量的算力做KV(键对值)的重复计算。
8月12日,《每日经济新闻》记者在上海举行的“2025金融AI推理应用落地与发展论坛”上了解到,市场越来越关注模型推理能力的深度优化——让推理过程跑得更快、成本更低、效果更好。如今,通过借助外部存储的“以查代算”方案,正在为普通企业突破AI推理瓶颈提供低成本的破题思路。
“以查代算”为AI推理效率与成本找到平衡点
如何让AI推理能力围绕“成本—性能—效果”这个“不可能三角”进一步演进,成为困扰业界的问题。
《每日经济新闻》记者在论坛上了解到,目前业内已经形成的一种解决方案是“以查代算”,即通过记忆此前已推理过的内容,降低重复推理,从而提高整体的推理效率。不过这种方案尽管降低了对算力的依赖,却对存储提出了更高要求。
此前,行业的推理能力高度依赖显卡的HBM,其成本让普通企业不堪重负。为了降低对HBM的依赖,业界开始探索DRAM(动态随机存取存储器)、SSD(固态硬盘)等外部存储方案以节省算力和带宽。正如清华大学章明星介绍:“GPU(图形处理器)在算力和带宽两个维度上肯定非常好,但是DRAM、SSD等在容量维度上成本很低,如果能够想办法利用容量维度,尽可能地节省对算力和带宽的开销,就可以大幅度降低整体系统的成本。”
记者获悉,业界已经出现了诸多通过优化存储分配来提升推理效率的案例。例如,英伟达推出了Dynamo推理方案架构,通过分布式的KV缓存管理器,提升上下文、吞吐率等;华为发布了UCM(推理记忆数据管理器,Unified Cache Manager)推理记忆数据管理器,可以分级管理推理过程中产生的KV Cache(即“记忆数据”)。
以后者为例,依托UCM层级化自适应的全局前缀缓存技术,系统能直接调用KV缓存数据,避免重复计算,显著降低首Token时延。UCM还通过分层卸载超长序列Cache(缓存)至专业存储,并创新算法扩展推理上下文窗口,满足长文本处理需求。同时,UCM具备智能分级缓存能力,可根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动,并融合多种稀疏注意力算法,实现存算协同,大幅提高长序列场景下的TPS(每秒处理Token数)。
值得一提的是,在论坛现场,华为宣布其UCM将于今年9月正式开源,将通过开放统一的南北向接口,适配多类型推理引擎框架、算力及存储系统。此外,英伟达官网显示,前述Dynamo其实也是一个开源的模块化推理框架。
金融领域率先获得应用
记者在论坛上获悉,上述UCM技术已率先在金融典型场景进行了试点应用。华为数字金融军团CEO曹冲介绍,华为和中国银联在客户之声、智慧营销和会议助手等场景,已验证了UCM技术的性能表现。
“金融级应用需微秒级响应,而卡顿、延迟直接影响风控与交易安全。”曹冲表示,金融场景对AI推理效能有着更高的要求。而UCM技术之所以选择在金融场景率先试点落地,李国杰解释道:“金融在IT信息化以及其他技术赋能行业的建设中一直走在前列。不管是投资上,还是场景需求上,金融领域都有大量数据掘金的机会。例如把投资数据、财务数据、企业信贷数据等喂给AI,做数据分析。”
在现场,中国银联智能化创新中心副总经理杨燕明透露了上述方案的应用效果。“经过一系列优化,我们具备了几个关键能力:一是多轮对话场景中首Token的延迟降低了60%,长序列的场景可以倍数级扩展推理长度,吞吐量达到了2~5倍的提升。”
记者了解到,就当前阶段而言,这类调用外部存储介质“以查代算”的策略,为企业在权衡AI推理效率与成本之间提供了一种解决方案。不过,一个更值得深究的问题是,这种路径究竟是基于HBM等成本压力下的过渡方案,还是AI推理的长期发展趋势?
对此,华为数据存储产品线副总裁、闪存领域总裁谢黎明在接受《每日经济新闻》记者采访时表示:“大部分数据都有一定的生命周期,会存在热、温、冷三种状态。从这个角度来看,一个分层的存储介质系统是必然的趋势。对于面向推理加速的KV数据,也必然存在热、温、冷之分,我们不可能用最昂贵的热介质来存储所有数据。因此,必须采用多层介质来解决性能问题,同时平衡成本问题。”
华为数据存储产品线副总裁樊杰向记者补充道,在AI推理过程中,缓存与外置存储分工不同,前者主要解决的是短期记忆,容量有限,但是反应速度很快;后者针对的是KV Cache的长期记忆,容量更大,相当于把知识记录下来。他打了个比方:“人类通过积累,相较于前一代更具智慧,并不是因为人脑变聪明了,而在于人类不停地把知识变成了书籍,后代通过书籍从而站在上一代人的肩膀上继续前行。”