谁掌握Agent和高效基础设施,谁将重写行业格局。
文|赵艳秋
编|牛慧
在北京人形机器人创新中心的实验场里,CTO唐剑和团队正在加速冲刺。今年春天,他们的机器人“天工”还需要工程师遥控才能跑完半程马拉松,而几个月后,在世界人形机器人运动会田径场上,它已能完成全自主奔跑。
唐剑总结,具身智能的突破要跨越两类瓶颈:一类是“非线性”的,比如场景泛化和大模型的飞跃,一旦突破,就会迎来“具身智能ChatGPT”时刻。虽然这在时间上不可预测,但他坚信,一两年内行业会出现重大突破。另一类是“线性”瓶颈,比如稳定性、负载能力、续航和安全性,只要假以时日就能提升。
为此,行业正在展开激烈竞逐。而竞速并不局限于机器人。自ChatGPT诞生的33个月以来,全球已出现4000多个大模型,催生近500家AI独角兽。没有一个模型能在榜单上停留超过五周。
这些也推动AI基础设施进行范式性变革,业界比以往任何时候,都需要更快的模型迭代和更强的计算平台。行业焦点从单一追求规模,转向追求效能。
百度集团副总裁侯震宇直言:“我们正站在价值爆发的前夜,谁能把握住AI应用最佳实践和基础设施效能的提升,谁就能在未来AI格局中脱颖而出。”
01
“我们的护城河,还在吗?”
尽管年初Deepseek引发一波应用探索热潮后,整个行业依然在摸索落地路径,但从上周举办的百度云智大会上看,大模型应用蓬勃演进的速度,超出想象。
去年,大模型应用主力军是互联网、智驾、央国企和科研教育行业。“今年,除了KA客户,出现了很多新型创企,像具身智能,还有从大语言模型转向多模态类的,场景更丰富。” 百度智能云AI计算首席科学家王雁鹏告诉数智前线,他将这些归结于开源模型浪潮和产业蓬勃,点燃了更多需求和应用。
具身智能在经历快速演进。北京人形机器人创新中心的“天工”,在今年春天的半程马拉松上夺冠后,目前已开始出货,今年可能销售几百台。中心与李宁等头部企业探索在运动学测试、导购、电力巡检等落地。“大家很快应该看到一些落地案例。”唐剑透露。中心也发布了具身世界模型、跨本体VLA模型等大模型的阶段性进展。
多模态创新是今年另一类引人注目的方向。创业公司VAST是一家成立仅两年的AI 3D大模型企业。AI 3D技术两年多前才被发明出来,VAST迅速将其商业化落地,已服务了全球超300万专业建模师、4万多家企业和700多家大客户。
“我们正在改变很多工业管线。”VAST创始人兼CEO宋亚宸说。过去建一个游戏模型要靠艺术家手工慢慢雕琢,现在用AI 3D只需几十秒钟、0.0001元。
大量AI陪伴类产品已悄然上市,售价从数百到数千元不等。AI陪伴机器人LOOI相关人士对数智前线说,上市几个月,他们已在全球出货3万台,其中海外60%,国内40%。
除了新市场,传统行业也在快速被改变。在金融领域,工商银行已上线了1000多个智能体,尤其今年智能体数量增长迅速,让交易形式、内部协作、风险经营等都发生了变化。
一家大型保险集团引入“数字员工”进行短期险邀约,意向率提升近一倍。百度副总裁阮瑜分析,结合多智能体以及真人级数字人交互体验,基于慧播星数字人技术的百度数字员工效率与专业度显著提升,交互还更具亲和力,能建立更强的用户信任。
数字员工一经推出,已迅速在100多个行业场景落地。像吴彦祖教英语、罗永浩直播带货,都掀起了不小的市场热度。
开发者对大模型的体会更深,现在,几乎所有程序员都在用AI写代码。根据百度工程效能部总监臧志的数据,AI Coding工具的代码生成占比已从20%提升至30%~40%,未来可能达到80%~90%。
值得注意的是,随着大模型智力上限不断拉高,各行业格局正被悄然重塑。7月,百度智能云金融业务部总经理徐旭拜访一家头部保险公司副总裁,分享智能体应用场景时,对方抛出一个问题:“我知道这能做,但在这个时代,我们的护城河在哪?”
这折射出头部企业的焦虑,技术创新正冲击传统壁垒,竞争格局正在改写。徐旭认为,关键在于让大模型直抵核心业务场景,用AI原生技术和新的管理范式重构竞争力。
正如百度集团执行副总裁、百度智能云事业群总裁沈抖所说,AI创造的价值,会远超互联网。互联网时代,网站和App封装的是信息,交付的也是信息;而智能时代的核心是Agent,封装的是智能,交付的是结果。一定会有大量的Agents去接管从生产到经营的各种环节,直接创造价值。而业界看到,AI全栈技术也正围绕Agent加速重构。
02
十万卡不是终点
格灵深瞳技术副总裁、算法研究院院长冯子勇,带领团队研发了视觉基础模型 Glint-MVT,并将Glint-MVT作为视觉编码器训练出多模态模型Glint-VLM,用于各种多模态理解任务和推动世界模型发展。他们计划在9月底左右将新一代Glint-VLM全量开源,这是一个达到商业级应用水平的模型,不仅放出模型,还公开训练数据和代码,让学术界和产业界真正理解模型的生成方式和安全性。
探索并不轻松。冯子勇坦言,过去在模型训练与实验迭代中,整个验证周期较长,亟需更强大的基础设施支撑。与百度智能云百舸平台合作后,百舸帮助其优化VLM训练框架,训练效率提升三倍,两天内就能完成一次训练,加快了实验迭代速度。而对于工业场景99%甚至99.9%准确率的需求,他们还需要依赖专业场景数据,从真实反馈中迭代。
随着模型规模、多模态、精度以及Agent的演进,对基础设施的需求已大为不同。全球算力竞赛仍在持续,科技巨头在大模型上不断“摸高”,Scaling Laws推动参数与算力快速增长。同时,Agent进入深水区后,上下文更长、多模态融合、强化学习和“训推一体”范式,对AI基础设施带来了新得范式性变革。
业内也将目光投向高效Scaling方向,从稠密模型转向MoE稀疏模型架构,MoE在保持计算量不变的情况下,可大幅扩大参数,万亿参数MoE模型已成普遍趋势。
今年以来,云大厂围绕MoE做了大量工作。比如百度智能云百舸5.0,围绕MoE架构做了全栈优化。
MoE对算力的要求是之前稠密模型的5到10倍。王雁鹏说,仅仅一个PD分离还不够,百舸5.0引入更系统的解耦,将视觉与语言、Attention与MLP等模块也解耦,大幅提升算力利用率。这种更细力度的分离正成为演进趋势。
强化学习同样正在兴起,成为最重要的计算范式变革。它采用“训推一体”方式,模型在推理时不断接受反馈并实时更新,形成数据飞轮,让AI持续逼近真实需求。但训练和推理在计算特性上完全不同,统一架构极具挑战。年初DeepSeek R1推出时,市面上的强化学习框架尚难支撑。为此,百舸通过多轮实验与工程创新,打造出新框架。
为进一步提升集群的效能,超节点成为行业竞相投入的产品,用以降低通信时间、提升吞吐。百度4月发布的昆仑芯超节点,在性能与经济性之间取得平衡。
过去外界担心国产芯能否支撑超大规模模型,侯震宇介绍,昆仑芯P800已在3.2万卡集群点亮应用,训练效率超过98%,并在多行业落地验证。它让百万tokens推理成本降至几块钱,同时适配主流模型和框架,成为真正覆盖训练与推理的国产芯片。
具身智能的崛起,也是基础设施必须全力支撑的方向,百舸已全面适配主流开源具身VLA模型,并在WM世界模型和VLM模型上实现训推提效,北京人形机器人创新中心基于此,将强化学习训练速度提升了一倍多。百度智能云已支持北京、上海、浙江、广东创新中心等的具身智能“国家队”,并为产业链上超20家重点企业提供支撑。
面向各级政府、超级大型企业,百度智能云提供自主可控、绿色低碳、产业赋能的全栈AI智算方案,目前完成了1.2万P算力建设并管理运营1500P算力,在IDC智算服务市场中排名国内第二。
03
Agent infra,越用越有价值?
除了算力基础设施,Agent要落地,必须有进一步支撑。Agent正在成为大模型落地的主角。从最初的简单应用,已发展为多Agent协同处理复杂任务。
Agent需要好模型。要不要行业模型、场景模型,很多行业存在“非共识”。百度智能云AI与大模型平台总经理忻舟告诉数智前线,他们与企业在行业大模型上的探索,经历了三个阶段。
最初,企业提供几十GB数据做后训练,但很快发现效果有限,一个新的基础大模型就能覆盖原有成果,因为数据量不够大。此后,企业开始结合具体场景,如设备维护,做数据标注,再在开源模型上做SFT或强化学习,训练量小、效果更好。
而在当下,他们的实践是先选择效果较好的基模,参数规模大可先蒸馏压缩;若效果不足,则补充标注数据训练小模型,还可以将多个小模型融合实现更好的效果,并在生产中持续迭代优化。
值得关注的是,在这个过程中,基座模型可灵活替换,企业在过程中真正沉淀下来的,是标注数据、应用know-how和Agent开发经验。
像智联招聘在人岗匹配场景中,采用了第三种模式,其在人岗匹配场景中,基于百亿参数规模模型,只用少量数据,就媲美千亿模型DeeSeek R1的效果。CTO王昊称,这是未来一段时间,垂直场景的“王道”方案。
忻舟告诉数智前线,从行业实践看,贸然建设行业大模型,投入大、效果不确定,性价比不高。但行业模型的价值已被验证,尤其是对于成本、精度和速度有考量的企业。此外,视觉、多模态基础模型,准确率通常只有20%~30%,通过上述流程,在特定场景下准确率可超过90%,性价比极高。在新升级的千帆4.0中,提供了预制好的行业场景专精模型,以及一个为专精模型深度定制的pipeline。
在这个过程中,大模型的微调从SFT(监督微调)走向RFT(强化微调),也就是模型的自我进化。RFT通过提供评估标准或奖励函数,让模型在业务场景中自我探索,只要结果符合目标即可。这种方式尤其适合目标明确、标准清晰的场景。
有了模型基础,下一步是如何让Agent协作完成任务。业界主要有三种编排方式,其一是自主规划,依赖大模型能力拆解任务,快速生成简单Agent;其二是工作流,优势是稳定可靠、结果可预期,目前在千帆平台上占到80%以上;其三是最新流行的一种多智能体协作,千帆采用“规划者执行者”模式,更灵活高效,还最先在国内云厂商中支持A2A协议,实现跨平台、跨企业的Agent互通。
智能体编排好后,还需要“手脚”去执行,高质量能力组件变得非常重要,其中最关键的两类是RAG和AI搜索。
千帆4.0的RAG已升级为多模态版本。九号电动车用五年登顶全球智能电动车销量第一,借助多模态RAG打造了多语种智能客服,车主只需拍照,就能获得实时多语种的诊断和指导处理。
百度AI搜索则满足了大模型的实时性需求。它是市场上呼之欲出、需求量非常高的API。大模型训练基于历史数据,如GPT-5的数据是截至2024年9月底的,难以覆盖最新信息,而AI搜索可实时补充这一缺陷。忻舟介绍,这一功能上线三天,调用量就从十几万飙升到千万级。最近,智联招聘已在校园场景中应用,帮助学生实时获取企业薪酬和面试经验。
Agent是未来最重要的研发范式,但是在这个研发范式背后数据的作用是无比重要的,无数据无智能。“我们发现工程师50%–80%的时间花在数据治理上。”百度智能云数据平台部总经理刘斌说,此次千帆4.0推出的数据智能平台DataBuilder,就是为了解决这一门槛。
产品覆盖了从多模态数据采集、转换、处理、检索、服务等数据治理的全生命周期,解决了模型训练和 AI 应用数据处理过程中,从数据管理,数据开发到数据生成处理全链条诉求。
通过多模态管理和一站式AI计算引擎,帮助客户实现600%数据处理提效和30%的计算成本降低,通过Data+AI一体化和面向场景化和行业化模板,帮助业务整个开发提效30%,同时通过多模态检索引擎帮助业务降低80%的检索成本。
随着Agent和大模型的深度融合,AI开始接管生产、经营和服务环节,成为新的价值创造者。无论是“天工”的全自主奔跑,还是数字员工的落地,都在印证AI已从实验室走向社会。下一个智能时代的竞争,将不只是比拼模型和算力规模,而是比拼谁能更快、更稳、更高效地把智能封装进Agent,嵌入到产业链与社会运行之中。而企业真正的护城河,正从传统资源禀赋,迁移到用AI原生应用构建和新的管理范式重构上。
©本文为数智前线(szqx1991)原创内容