最近越来越多的人问世界模型是什么。随着世界模型(WMs)在AI研究和应用领域的发展,与视觉语言动作(VLA)模型等其他主流方法有何不同。在这篇文章中,将分解WMs是什么,是什么让它们变得强大,以及为什么可能是物理智能和AGI的基础支柱。
本报告由势乘资本和光锥智能联合发布
🧠什么是物理世界模型?
世界模型是一种学习如何模拟现实世界动态的的内部表征。与静态感知模型不同,世界模型是生成和预测的——可以模拟世界如何随着时间的推移而演变,允许智能Agent在实际执行之前计划行动和推理。
一些世界前沿的物理世界模型研究组织有:
Meta FAIR:主张基于自监督学习的预测架构。
Stanford’s World Labs (Fei-Fei Li):专注于空间智能和3D场景理解。
NVIDIA Cosmos:构建大规模生成模型来模拟环境,如Cosmos Predict,Transfer和Reason1。
ZhiCheng AI World Model:专注于机器人的物理智能。
这些模型在实现上有所不同,但有一个共同的目标:为Agent提供对其环境的内化理解。
⚙️ 物理世界模型的
核心组成和机制
多模态输入处理:它们接受视频、图像、传感器数据流(例如LiDAR、IMU),有时还包括语言,来创建统一的特征表示。
时间预测:像“Dreamer”或“Cosmos Predict”这样的模型,学习从历史数据中预测未来的框架或状态。
潜在特征学习:WMs不是在原始输入上操作,而是使用通过编码器和分词器学习的抽象状态空间。
自我监督学习:训练通常通过下一步预测、对比学习或重建等目标来完成。
模拟和推理:经过训练后,WMs可以模拟各种假设场景,这对规划、安全和适应至关重要。
🔍 世界模型是如何工作的
又适用于哪里
世界模型的运行一般分为三个阶段:
数据摄取:收集多模态感官数据并将其标记为紧凑的特征表示。
世界学习:模型学习从当前状态和动作到未来状态的映射(动态环境)。
模拟与规划:推理包括模拟未来结果和选择最佳行动。
这些步骤允许世界模型提供以下AI应用:
自动驾驶(如预测路况)
机器人(如操作、移动)
合成数据生成(如用于训练其他AI模型)
具身推理(如物理常识)
📊世界模型与
视觉-语言-动作
(VLA)模型有何不同?
VLA模型,如RT-2或OpenVLA,擅长使用大规模的视觉和语言数据来解释指令和响应动作。然而,它们通常不会建立世界的内部模型。
WMs and VLAs对比
Cosmos WM 和 OpenVLA
🚀具身智能流派
技术概况及其差异
现在具身智能跨越了多个技术流。每个都有不同的理念和工程的权衡:
✅ 经典自动化控制
基于微积分线性和非线性的物理优化
精度高,但适应性差
🧠 深度强化学习(DRL)
通过试验和错误学会策略
功能强大但数据效率低下
🤖 物理世界模型
通过内部模拟进行预测规划
最理想的向前推理和环境适应
🔢 VLA模型
语言和感知驱动的Agent控制
高度泛化性,但物理上理解很肤浅
👩💼 遥操+模仿学习(LfD)
从人类演示中引导模型
数据需求低,但可扩展性较差
📊 多模态传感器融合&空间智能
结合视觉、触觉和本体感觉
丰富但计算量大
这些方法并不相互排斥。例如机器人可以使用物理世界模型进行规划,使用VLA跟随指示,使用传感器融合进行实时感知。
具身智能流派技术对比
具身技术间的关系
🌟最终的想法
世界模型不仅仅是另一种AI架构——它们代表了一种向内化理解、模拟和预测的范式转变。在未来,物理AI必须不断行动、适应和学习,世界模型为通用智能体提供了所需的大脑核心。虽然还不完美,但它们构成了智能物理交互的基础,标志着向嵌入式AGI迈出了重要的一步。