机器人这回真要进家当保姆了！世界统一模型登场，有世界观、能自我进化

33天后，你的家里或许就要迎来一位硅基新成员了！

它要面对的，可能是随处散落的衣服、小孩随手扔在地上的玩具、桌边快要掉下去的杯子、刚被猫弄乱的客厅……这些你每天都要做、似乎永远做不完的琐碎家务。关键是，它还能24小时全天在线，把家务活越干越明白！

4月21日，自变量机器人在北京举行发布会，宣布将于5月25日，让搭载新一代自研具身智能基础模型WALL-B的机器人入驻真实家庭。

WALL-B是全球首个基于世界统一模型（World Unified Model，WUM)架构的具身基础模型，把视觉、听觉、语言、触觉、动作乃至物理预测放进同一个网络里从零联合训练，让机器人第一次有机会同时形成对环境、自身和任务的整体理解。

更重要的是，WALL-B突破了VLA只会模仿的天花板，开始具备对物理世界规律的认知，并能在真实交互中持续学习和自我进化，标志着具身基础模型从VLA架构向原生多模态融合架构的重大跨越。

一、从WALL-A到WALL-B，机器人大脑从模块拼装进化成原生统一

最近，北京人形机器人马拉松火爆全网，机器人在硬件本体、运动控制上进步飞速。但是热闹之外，人形机器人灵巧操作、泛化性等方面，却存在不少困境，这也是机器人一直没办法进入真实场景干活的关键。

目前的具身大模型大都基于VLA架构，自变量早期也推出了基于VLA架构的第一代具身模型WALL-A，但把机器人送进家庭后，团队渐渐看清了VLA的天花板。

VLA技术生态虽然比较成熟，但本质上是多个独立模块的拼接。信息就像流水线一样逐级往下传，每传一次信息就损耗一次，最后机器人真正要执行的时候接收到的信息就不完整了。

这其实很像在苹果M1芯片出现之前，Mac上各自独立的CPU、GPU、内存一样，信息在这三个芯片之间每搬运一次就会产生损耗、出现延迟。

另外，VLA能够让机器人模仿训练数据的轨迹，但没法搞懂物理世界规律。机器人只会死记硬背但没掌握底层规律、不会变通，真干活了就会暴露出各种不足。自变量机器人CTO王昊总结道，“模仿是VLA的天花板”。

比如，当看到一个盘子悬在桌边，机器人无法理解它会在重力作用下往下掉，自然也就不知道需要把它往回推。

从WALL-B到WALL-B，自变量实现了从VLA到WUM的架构革命，本质不是做一次普通迭代，而是把机器人大脑从模块拼装改成原生统一。

WALL-B就像苹果M1芯片统一了内存架构一样，将视觉、语言、动作、物理预测等所有能力，放在同一个网络中从零开始联合训练，打通模块之间壁垒，让各个模块从过去的分头行动走向协同运转。

机器人之前就像“传话式”地处理任务，而从现在开始，模块间的边界和数据搬运损耗被消除了，它就能够整体性地对环境、身体、任务等进行思考，像人类一样去理解世界。

这种整体性性思考的能力，就像我们看到一个杯子快从桌边掉下去的时候，往往脑子还没完全反应完，手就已经先伸出去接了。因为人在那个瞬间，对环境、物体状态、身体动作和接下来可能发生的后果，拥有一种整体性的理解。

二、基于世界统一模型架构，WALL-B让机器人有世界观、能自我进化

基于世界统一模型（WUM）架构，WALL-B实现了三项区别于行业现有模型的核心技术特征：

1、原生多模态

WALL-B从训练第一天开始，就对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注与联合训练。

机器人看到一个杯子快要从桌子掉下去的同时，它的手就伸了过去，一边还调整力度把杯子稳妥放好。模型不再需要再像流水线一样等不同模块转译、传话，才能进行下一步。

这种架构让模型第一次拥有了原生本体感，让机器人能感知自身尺寸与空间位置，判断自身在环境中的状态。

遇到狭窄的过道、半开的门、高处的物品时，机器人能清楚地判断能不能通过、能不能够得着东西、够到了会发生什么。而很多扫地机器人甚至都不具备这个能力，它连自己钻进去沙发底、桌底会不会被卡住可能都不太清楚。

WALL-B还让机器人拥有了部件级理解能力，在看到一个杯子的时候，机器人能像人一样感知到杯子把手朝向哪里、是什么材质、杯身有什么图案、杯子里有没有水、怎么拿握更合适。在一个家庭中认识了一个杯子后，换一个地方它还能认得，即便外形完全不同。

2、物理世界的“世界观”

WALL-B让机器人不止看见世界，还能读懂世界，感知并预测重力、惯性、摩擦力、速度等基本物理规律。

机器人端起了一个装满水的杯子，能感知杯子里有水、重量会随着液体晃动发生变化，手上的力度太小可能打滑，太大又可能把杯子捏翻，移动过快还会因为惯性把水洒出来。所以它会一边拿、一边动态调整手部力度和移动速度。

真正支撑零样本泛化的，不是模型记住了多少任务，而是它开始理解这个世界的基本运行规律。今天能在一个家庭里判断装满水的杯子该怎么端，明天就能在另一个完全陌生的环境里，处理材质不同、重量不同、形状不同的容器。

机器人掌握的不再只是某一个动作模板，而是一套可以迁移到更多场景中的底层常识。

3、与世界交互并自我进化

目前，基于VLA模型的机器人在任务失败后通常直接停止，返回错误信息，没法从失败中学习。而WALL-B的行为模式则完全不同：它在失败后会调整策略再次尝试，如果成功，则将这次成功的经验直接更新到模型参数中。这是WUM架构区别于所有现有VLA模型的最根本特征。

机器人的学习方式从等人喂数据、等工程师重新训练，变成了在真实世界里边做边学，越来越聪明。

王昊比喻，这就像人类学习如何用筷子一样，会在实践过程中不断调整角度、力度，最后内化为自身的技能。

过去，我们看到许多会后空翻、跳街舞、写毛笔字的机器人表现惊艳，但本质上仍是预设轨迹的“命令行机器人”，每一个动作都经过预先编程或遥控操作。

而家庭场景没有人能提前把所有情况教完、预设好轨迹，机器人只有理解更底层的物理规律和空间关系，并能够在持续的实践中不断进化，才可能真正落地在千变万化的家庭场景中。

三、从糖水数据到牛奶数据，自变量靠真实家庭场景转动数据飞轮

高质量真实数据的缺失，正是制约具身智能技术落地的核心一环。王昊认为，具身智能行业最大的秘密不是算法，不是架构，不是硬件，而是数据。

规模化、流水线式生产数据的数采工厂，虽然效率高，但依赖于预设场景、标准化任务，无法覆盖真实世界中各种非标准、非重复、琐碎的操作场景。

王昊把这类数据比喻为“糖水数据”，就像糖水除了甜之外对身体没什么好处，这类数据虽然干净、可控、量大，但和真实家庭里的复杂环境之间仍然隔着一道很深的鸿沟，基于这种数据训出来的模型，在真实环境中会迅速失效。

这是因为，真实家庭不是一个标准化的实验场，而是由杂乱物品、不同灯光、宠物穿行、孩子打断和临时任务等组成的生活现场。

与之相对的，王昊比喻为“牛奶数据”，牛奶是能够给身体带来实打实的营养的，真实家庭环境中采集的嘈杂、多变、充满随机性的数据，训练价值更高，这也是自变量选择的数据道路。

为了拿到这类数据，自变量团队进入了数百个志愿者的真实家庭做模型训练。每一户的布局、灯光和混乱程度都不一样。

真实家庭之所以重要，不只是因为更复杂，而是因为它让任务规划这件事本身也变得不可预设。王昊提到，机器人呢在进入任何一个家庭之前，很难知道具体要做什么任务、没法提前规划任务。

这种耗时耗力的“笨功夫”，却恰恰形成了自变量最关键的壁垒，机器人只有在这种差异里训练，才可能建立真正的泛化能力。

所以，自变量选择用实验数据打底，真实场景提质，前者让模型拥有基本能力，后者让模型学会在不确定、不可预测的环境中生存。

更重要的是，WALL-B能让机器人能够在与真实世界的持续交互中不断产生新数据、回流新经验，并推动模型完成自我进化，形成“进家庭—获取数据—模型自我进化—再进更多家庭”的正向数据飞轮。

一旦这个飞轮真正转起来，数据就会变成模型持续成长的燃料，像自变量这样更早进入真实场景、积累更多高质量交互数据的企业，就能够不断扩大自身的领先优势。

四、机器人1个月后入驻真实家庭，在工作中越变越聪明

前阵子，自变量和58同城合作，将搭载WALL-AS模型的机器人送入真实家庭，与保洁阿姨协同作业，在全球首次机器人进入家庭作业。

这次，王潜明确表示，将在5月25日，让搭载WALL-B模型的机器人进入真实家庭干活。

对于机器人进入家庭后可能会带来的隐私问题，王潜提到，自变量会采用视觉脱敏、透明授权、用途限定的方案来保证用户的隐私安全。

机器人进家庭这件事的想象空间显然不止卖一台机器人，因为当机器人开始在家庭中长期驻留，它就不只是一个消费电子产品，更像是一个可持续更新的服务系统，可以通过服务订阅、功能更新和模型升级，不断提升它的能力。

对企业来说，这门生意不再是一次性卖机器，而是凭借持续服务和持续升级，与客户形成长期付费关系。

王潜也承认，当前模型仍处于“实习生”阶段，会犯错，需要远程协助，有时可能把拖鞋放到厨房、擦桌子擦到一半停下来思考。但其能够实现24小时不间断工作，且每工作一天都会因新数据的产生而变得更“聪明”。

结语：家庭这道终极考题，正成为机器人真正长大的地方

家庭既是具身智能最复杂、最琐碎、最难标准化的地方，也是最能检验机器人是否真正具备通用能力的终极目标场景。

今天的机器人也许还走得慢、做得笨，还经常犯错，但真正重要的变化是，它已经开始走进家庭，在这个充满随机性和不确定性的真实世界里，一边干活、一边学习，持续进化。

对于具身智能而言，这不只是一次场景落地，更像是一场真正意义上的启程：机器人已经在最复杂的地方，开始了自己的成长。

机器人这回真要进家当保姆了！世界统一模型登场，有世界观、能自我进化

Published by

风君子

最新文章

标签

书签