
作者|何理
AI的风向,已经变了。
此前,无论大语言模型还是Agent、龙虾,AI始终在“屏幕内”,「数字AI」不断探索边界,也卷成了红海。而现在,在屏幕之外,一个更庞大、更具想象力的AI新战场正在形成——行业目光集体转向能真正在真实世界里动手干活儿的「物理AI」。
巨头对此纷纷下注:英伟达高调推出全模态物理AI模型NVIDIA Cosmos 3,还亮出了机器人领域的全家桶,黄仁勋反复强调物理AI将成为下一波浪潮,世界模型是实现物理人工智能的核心;马斯克也在将AI的触角延伸至物理世界,FSD(完全自动驾驶)实现端到端进化,Optimus人形机器人高频迭代……
有意思的是,在物理AI的蓝图里,率先承接机会的并非是尚在实验室里练习行走的双足人形机器人,而是已经在公路上比比皆是的智能汽车。自动驾驶是目前非常稀缺的能够同时跑通“海量物理数据闭环”与“高频商业造血”的通用物理AI场景。而世界模型则是物理AI的底座,是激发物理AI“GPT时刻”的关键突破口。
6月23日,物理AI公司Momenta通过港交所聆讯,正式进入IPO冲刺阶段,即将领衔“物理AI第一股”。在智驾的基础上,Momenta正在打造一个能够理解物理规律、推演世界演变的通用世界模型,成为物理AI基座模型的构建者。
目前,Momenta R7世界模型已实现量产首发,意味着物理AI正式从技术理念走向规模化量产落地,实现从“看见世界”到“理解世界”的跨越。与此同时,在竞争最为激烈的中国第三方城市NOA供应商市场中,Momenta以高达65%的市占率行业居首,Momenta的客户已覆盖国内全部主流乘用车企业,且全球前10大车企中已有9家与其开展合作,成为“全球品牌的共同选择”,这也验证了自动驾驶作为物理AI的核心赛道的规模化商业价值。
此外,Momenta的股东阵容极其豪华,汇聚了全球最核心的产业和科技战略投资人,以及全球顶级财务投资人。产业资本囊括了全球汽车产业链的核心玩家,包括:上汽、通用、奔驰、丰田、比亚迪、现代、奇瑞等7家全球顶级车企,以及博世集团、德赛西威、立讯精密等头部产业链合作伙伴,和Uber、Grab、Stone Venture等Robo合作伙伴。科技巨头则包括腾讯、阿里云、蚂蚁集团、京东等。财务投资人更是覆盖了淡马锡、IDG、阿曼投资局、亦庄国投、Granite Asia、顺为、蔚来资本、凯辉基金、云锋基金、蓝湖资本、创新工场、真格基金、鼎晖投资、高榕创投、高成资本、众为资本、愉悦资本、钟鼎资本、盈峰资本、招银国际、华泰创新资本、混沌资本、春华资本、大湾区基金、国新基金、光速光合、锦秋基金等全球最顶尖投资机构。超豪华、多元化的股东阵营,不仅为Momenta提供了战略和资本支持,还从业务协同、用户增长和全球化布局等方面助力了Momenta高速增长。

世界模型带来新的“GPT时刻”
说起“物理AI”其实不难理解,简单来说,它就是将人工智能的感知、决策与学习能力,深度嵌入机器人、智能设备、自动化产线等物理实体系统中,使其能够在复杂、动态的真实物理环境中自主执行任务。如果说过去AI突破主要体现在数字世界,那么物理AI的兴起,则意味着AI发展进入了以理解和影响物理世界为核心的新阶段。
但不同于数字AI,物理AI并不是一条单线赛道。具身智能、自动驾驶、工业机器人、边缘AI,都在把AI从屏幕带进现实世界,它们之间也并非对立关系,更像是物理AI走向现实的不同入口。而世界模型(World Model),正是这一切的共同底座——它是AI理解物理世界、预判未来并自主决策的“内在思维系统”。
要理解世界模型的关键性,我们不妨将其与大语言模型(LLM)做个对比:
大语言模型擅长的是“读万卷书”,它理解语义、擅长推理,在虚拟符号世界里无所不知,但它并不真正掌握物理规律,无法本能地理解“推倒杯子水就会洒”;世界模型则擅长“行万里路”,它能够深刻理解物理世界的规则,预测动作带来的后果,并支持AI在现实世界中做出实际行动。
纯语言模型或传统简单算法的短板很明显:它们要么不懂物理规律,无法应对瞬息万变的动态场景;要么必须在真实环境中通过海量的肉身试错来“刷经验”,比如机器人不断摔倒,这不仅导致硬件损耗成本高昂,更伴随着不可承受的安全风险。
现实世界场景多变且充满不确定性,人类无法用死板的规则预设所有的突发情况。因此AI必须具备自主理解和预判能力,才能适应不同环境。而世界模型正是要解决这一痛点——在AI的大脑中搭建了一个“虚拟练兵场”,先通过预训练赋予模型理解现实世界的“物理直觉”,让AI真正“懂物理”;再利用这套规律在虚拟练兵场里“脑补”行动后果,配合强化学习的奖惩机制,让大模型在无风险、低成本的环境中反复探索、试错并给出最优决策。这种从理解物理规律到在虚拟试错中进化出最优行动方案的闭环能力,正是世界模型能够打破虚拟与现实鸿沟,成为具身智能和通用人工智能核心基石的关键原因。

今年世界模型热度明显升温,很多不同的技术路线、不同的场景模型都冠以世界模型:
有的以语言为中心,比如VLM、VLA是把其它模态、其它能力映射到语言空间。
有的以像素为中心,比如Sora,实际上是在预测下一个2D像素场景,由于其训练数据大量来自影视作品,模型极易生成不符合真实物理规律的内容,比如像星战“原力”一样违背重力逻辑的画面。图灵奖得主Yann LeCun也曾多次公开批评,生成像素并不等同于理解物理因果;
还有的以三维结构为中心,比如李飞飞World Labs的"空间智能"理念,从单张图片生成可交互的持久化3D环境,本质上瞄准的是数字世界的构建。但模型重建3D空间不等于理解世界,几何结构也不代表复杂的物理动态演变状态。
由此可见,当前各个方向的世界模型的痛点核心,在于对物理规律的理解深度,以及能否最终服务于“行动”。我们开发世界模型,不是为了教模型去生成一段好看的视频,而是要教它理解物理规律,并基于这种理解去精准预测下一个状态。行业真正需要的,是把多模态感知、物理规律理解和动作执行三者彻底打通。

Momenta R7世界模型
如何构筑物理AI底座?
而要实现多模态感知、物理规律理解和动作执行三者打通,就必须拥有海量的真实物理交互数据与场景,率先跑通数据和商业规模化闭环,让“数据回流再推动模型能力跃升”的正向循环真正转起来。在这个前提下,拥有断层式数据红利的自动驾驶赛道,自然成为了最先解出这道题的产业先锋。
无论是Mobileye、Waymo,还是Momenta,这些自动驾驶的头部公司都不约而同地成为了物理AI的排头兵,自动驾驶公司积累的能力,正在被重新理解为可以泛化到更广义物理AI的平台能力。
Momenta在数据、场景、世界模型架构方面的优势格外显著:
在数据规模方面,Momenta拥有基于120+亿公里实车里程提炼的1亿段黄金数据,还有真实世界里大量数据的反馈,覆盖更多长尾场景。Momenta以真实数据学习生成世界,它可以通过实车和仿真的一致性来做对齐和校准,并拥有明确可参考的基准,这种“真生成”最大程度地减少了仿真与现实之间的差异,比生硬的渲染方式要可靠得多。
而在世界模型方面,Momenta R7的三层架构更是独树一帜。
第一层World Model Pre-Training(世界模型预训练), 让模型懂物理。传统的智驾大模型大多是在“背题库”,而R7则是在“学规律”。它通过海量真实驾驶视频的预测训练,将物理规律、常识与因果关系压缩进模型,让系统形成对物理世界最底层的基础认知,不再机械地依赖人工规则。
有了物理常识,模型需要演练,第二层World Model Simulation(世界模型仿真),就是让模型拥有“练兵场”。R7利用生成式模型推演周围环境进行闭环仿真,让系统能够推演自身行为变化时世界将如何演变。依托这种高效场景推演能力,AI可以对现实中很罕见、很危险的长尾场景进行性能评估,其效率比传统实车路测提升了上万倍。
第三层则是World Model Reinforcement Learning(在世界模型中进行强化学习),系统通过精心设计的奖惩机制让大模型反复探索与试错。它在虚拟世界里经历千万次的博弈推演,自主学会了在复杂多变的动态环境里如何做出最优决策,最终输出更安全安心、高效丝滑的类人驾驶表现。
这套架构可以说是物理AI现实价值的直观体现。比如开车的时候,前方意外掉落一箱苹果,Momenta就可以自主预判苹果滚落的轨迹与扩散范围,提前平稳减速、规划绕行路线,以更从容、更贴合人类驾驶逻辑的方式处理突发路况。
Momenta R7理解的是物理世界的运动规律与交互逻辑,而非依赖场景记忆与规则匹配。真正的物理AI,不只是让车辆在绝大多数日常场景中顺畅行驶,更要在万中无一的罕见极端场景中,依然为用户提供更稳健的安全保障。

从整体视角来看,Momenta R7世界模型这三层架构并不是孤立的三个模块,而是一个有机统一、高频自运转的整体:一方面认知一体,从第一层的“理解物理”,到第二层的“推演未来”,再到第三层的“动作决策”,R7架构打破了过去感知、预测、规划各自为战的割裂状态,信息在同一套基座模型中流动;另一方面可以自进化,第一层提供认知,第二层提供空间,第三层在空间里刷经验,三者互为因果,数据在内部滚动即可实现模型的自我升级。
目前行业内普遍仅将世界模型用作“生成数据”的仿真工具,好比考前多刷一些模拟题,Momenta是市场上极少数直接将世界模型用于“端到端基座模型预训练”的公司。这种底层的应用代差,让系统整体的产品性能和进化上真正与其他人拉开距离。
另外,招股书显示,2025全年Momenta研发投入为18.69亿元,占其年度收入的77.5%,近三年累计研发投入达46.6亿元。截至2025年底,公司拥有研发人员1157名,研发人员占比近82%,超过三分之二拥有硕士及以上学历。坚决的研发投入会进一步巩固和加强Momenta的技术领导地位。

技术跨场景落地
指数级优势显现
而更重要的是,技术的积累正在落地于应用。Momenta R7世界模型已经走出了实验室,在真实的产业与资本浪潮中率先跑通了数据+商业的两大闭环。
一方面是实打实的量产,Momenta R7 世界模型已量产首发,目前搭载Momenta系统的量产车辆规模已超90万台,已成功交付超100款量产车型,累计定点车型数超210款,并实现最快不到40天交付10万台的高效部署。复杂路况下产生的海量交互数据,实时、高频地流回模型,会进一步促使 R7 实现指数级自我进化。
另一方面则是实打实的营收,招股书显示,Momenta近三年营收规模实现跨越式增长:2023年至2025年,Momenta营业收入从7.43亿元增长至24.13亿元,三年翻三倍,年均复合增长率超80%。截至2025年底,公司现金储备超100亿元,为加速Robo市场和全球化发展提供了有力支撑,有利于其在物理AI的长期战役里占据主动权。

图源:招股书
由此Momenta得以形成飞轮效应,“平台级”的架构将终结过往各场景孤立开发、重复造轮子的传统模式。其用一套大模型同时覆盖乘用车以及无人驾驶出租车(Robotaxi)、无人物流车(Robovan),2027年还将扩展至无人驾驶卡车(Robotruck)领域。
核心底层技术的跨场景复用,极大地摊销了多业务线并行的研发成本,使得边际成本大幅降低。可以想象,未来这种从智驾中锤炼出来的、打通了“感知-物理常识-行动”的底座能力,还可以无缝延展到具身智能、工业机器人等更广阔的通用物理 AI 领域。

Momenta的“两条腿”策略
目前,智驾领域正呈现出一种“摩尔定律”式的进步节奏,在端到端与世界模型的加持下,行业部分头部企业开始展现出远超以往的能力迭代速度。
而Momenta的规模效应和先发优势也在多个维度展开:体验上,数据越多,算法越聪明,体验越好;交付上,建立工程化壁垒后迭代极快,Momenta 交付首个 10 万台车用了整整 2 年,而如今仅需要不到 40 天即可完成 10 万台车的交付;客户上,头部车企的信任也在不断积累,在 Momenta 的客户群体中,既有BBA德系豪华,也有通用、大众、丰田、日产、本田等 20 余家全球主流车企,拥有不同背景的中德美日韩顶流品牌,这些合作案例也成为 Momenta 量产能力和市场接受度的最直观证明。

回头看AI的发展路径,会发现一个有趣的规律:每一次技术范式切换,资本市场最终定价的都不是某个单点产品,而是能够定义下一代基础设施的平台能力。
大语言模型时代,市场重估的是能够理解和生成信息的数字智能;而当AI开始走出屏幕、进入真实世界,市场重新寻找的则是能够理解物理规律、预测世界演化并驱动行动决策的物理智能。从这个角度来看,Momenta上市的意义,不仅是自动驾驶业务的资本化,更是世界模型、物理AI第一次进入公开市场的价值验证。
行业普遍判断,智驾及物理 AI 底座最终将是“马太效应”的局面,未来全球市场最终可能只会留下少数头部玩家。而Momenta势必能以自身的稀缺性、技术领先、商业闭环迎来“赢者通吃”的应许之期。

