机器人这回真要进家当保姆了!世界统一模型登场,有世界观、能自我进化

33天后,你的家里或许就要迎来一位硅基新成员了!

它要面对的,可能是随处散落的衣服、小孩随手扔在地上的玩具、桌边快要掉下去的杯子、刚被猫弄乱的客厅……这些你每天都要做、似乎永远做不完的琐碎家务。关键是,它还能24小时全天在线,把家务活越干越明白!

4月21日,自变量机器人在北京举行发布会,宣布将于5月25日,让搭载新一代自研具身智能基础模型WALL-B的机器人入驻真实家庭。

WALL-B是全球首个基于世界统一模型(World Unified Model,WUM)架构的具身基础模型,把视觉、听觉、语言、触觉、动作乃至物理预测放进同一个网络里从零联合训练,让机器人第一次有机会同时形成对环境、自身和任务的整体理解。

更重要的是,WALL-B突破了VLA只会模仿的天花板,开始具备对物理世界规律的认知,并能在真实交互中持续学习和自我进化,标志着具身基础模型从VLA架构向原生多模态融合架构的重大跨越。

一、从WALL-A到WALL-B,机器人大脑从模块拼装进化成原生统一

最近,北京人形机器人马拉松火爆全网,机器人在硬件本体、运动控制上进步飞速。但是热闹之外,人形机器人灵巧操作、泛化性等方面,却存在不少困境,这也是机器人一直没办法进入真实场景干活的关键。

目前的具身大模型大都基于VLA架构,自变量早期也推出了基于VLA架构的第一代具身模型WALL-A,但把机器人送进家庭后,团队渐渐看清了VLA的天花板。

VLA技术生态虽然比较成熟,但本质上是多个独立模块的拼接。信息就像流水线一样逐级往下传,每传一次信息就损耗一次,最后机器人真正要执行的时候接收到的信息就不完整了。

这其实很像在苹果M1芯片出现之前,Mac上各自独立的CPU、GPU、内存一样,信息在这三个芯片之间每搬运一次就会产生损耗、出现延迟。

另外,VLA能够让机器人模仿训练数据的轨迹,但没法搞懂物理世界规律。机器人只会死记硬背但没掌握底层规律、不会变通,真干活了就会暴露出各种不足。自变量机器人CTO王昊总结道,“模仿是VLA的天花板”。

比如,当看到一个盘子悬在桌边,机器人无法理解它会在重力作用下往下掉,自然也就不知道需要把它往回推。

从WALL-B到WALL-B,自变量实现了从VLA到WUM的架构革命,本质不是做一次普通迭代,而是把机器人大脑从模块拼装改成原生统一。

WALL-B就像苹果M1芯片统一了内存架构一样,将视觉、语言、动作、物理预测等所有能力,放在同一个网络中从零开始联合训练,打通模块之间壁垒,让各个模块从过去的分头行动走向协同运转。

机器人之前就像“传话式”地处理任务,而从现在开始,模块间的边界和数据搬运损耗被消除了,它就能够整体性地对环境、身体、任务等进行思考,像人类一样去理解世界。

这种整体性性思考的能力,就像我们看到一个杯子快从桌边掉下去的时候,往往脑子还没完全反应完,手就已经先伸出去接了。因为人在那个瞬间,对环境、物体状态、身体动作和接下来可能发生的后果,拥有一种整体性的理解。

二、基于世界统一模型架构,WALL-B让机器人有世界观、能自我进化

基于世界统一模型(WUM)架构,WALL-B实现了三项区别于行业现有模型的核心技术特征:

1、原生多模态

WALL-B从训练第一天开始,就对视觉、听觉、语言、触觉、动作等多模态数据进行同步标注与联合训练。

机器人看到一个杯子快要从桌子掉下去的同时,它的手就伸了过去,一边还调整力度把杯子稳妥放好。模型不再需要再像流水线一样等不同模块转译、传话,才能进行下一步。

这种架构让模型第一次拥有了原生本体感,让机器人能感知自身尺寸与空间位置,判断自身在环境中的状态。

遇到狭窄的过道、半开的门、高处的物品时,机器人能清楚地判断能不能通过、能不能够得着东西、够到了会发生什么。而很多扫地机器人甚至都不具备这个能力,它连自己钻进去沙发底、桌底会不会被卡住可能都不太清楚。

WALL-B还让机器人拥有了部件级理解能力,在看到一个杯子的时候,机器人能像人一样感知到杯子把手朝向哪里、是什么材质、杯身有什么图案、杯子里有没有水、怎么拿握更合适。在一个家庭中认识了一个杯子后,换一个地方它还能认得,即便外形完全不同。

2、物理世界的“世界观”

WALL-B让机器人不止看见世界,还能读懂世界,感知并预测重力、惯性、摩擦力、速度等基本物理规律。

机器人端起了一个装满水的杯子,能感知杯子里有水、重量会随着液体晃动发生变化,手上的力度太小可能打滑,太大又可能把杯子捏翻,移动过快还会因为惯性把水洒出来。所以它会一边拿、一边动态调整手部力度和移动速度。

真正支撑零样本泛化的,不是模型记住了多少任务,而是它开始理解这个世界的基本运行规律。今天能在一个家庭里判断装满水的杯子该怎么端,明天就能在另一个完全陌生的环境里,处理材质不同、重量不同、形状不同的容器。

机器人掌握的不再只是某一个动作模板,而是一套可以迁移到更多场景中的底层常识。

3、与世界交互并自我进化

目前,基于VLA模型的机器人在任务失败后通常直接停止,返回错误信息,没法从失败中学习。而WALL-B的行为模式则完全不同:它在失败后会调整策略再次尝试,如果成功,则将这次成功的经验直接更新到模型参数中。这是WUM架构区别于所有现有VLA模型的最根本特征。

机器人的学习方式从等人喂数据、等工程师重新训练,变成了在真实世界里边做边学,越来越聪明。

王昊比喻,这就像人类学习如何用筷子一样,会在实践过程中不断调整角度、力度,最后内化为自身的技能。

过去,我们看到许多会后空翻、跳街舞、写毛笔字的机器人表现惊艳,但本质上仍是预设轨迹的“命令行机器人”,每一个动作都经过预先编程或遥控操作。

而家庭场景没有人能提前把所有情况教完、预设好轨迹,机器人只有理解更底层的物理规律和空间关系,并能够在持续的实践中不断进化,才可能真正落地在千变万化的家庭场景中。

三、从糖水数据到牛奶数据,自变量靠真实家庭场景转动数据飞轮

高质量真实数据的缺失,正是制约具身智能技术落地的核心一环。王昊认为,具身智能行业最大的秘密不是算法,不是架构,不是硬件,而是数据。

规模化、流水线式生产数据的数采工厂,虽然效率高,但依赖于预设场景、标准化任务,无法覆盖真实世界中各种非标准、非重复、琐碎的操作场景。

王昊把这类数据比喻为“糖水数据”,就像糖水除了甜之外对身体没什么好处,这类数据虽然干净、可控、量大,但和真实家庭里的复杂环境之间仍然隔着一道很深的鸿沟,基于这种数据训出来的模型,在真实环境中会迅速失效。

这是因为,真实家庭不是一个标准化的实验场,而是由杂乱物品、不同灯光、宠物穿行、孩子打断和临时任务等组成的生活现场。

与之相对的,王昊比喻为“牛奶数据”,牛奶是能够给身体带来实打实的营养的,真实家庭环境中采集的嘈杂、多变、充满随机性的数据,训练价值更高,这也是自变量选择的数据道路。

为了拿到这类数据,自变量团队进入了数百个志愿者的真实家庭做模型训练。每一户的布局、灯光和混乱程度都不一样。

真实家庭之所以重要,不只是因为更复杂,而是因为它让任务规划这件事本身也变得不可预设。王昊提到,机器人呢在进入任何一个家庭之前,很难知道具体要做什么任务、没法提前规划任务。

这种耗时耗力的“笨功夫”,却恰恰形成了自变量最关键的壁垒,机器人只有在这种差异里训练,才可能建立真正的泛化能力。

所以,自变量选择用实验数据打底,真实场景提质,前者让模型拥有基本能力,后者让模型学会在不确定、不可预测的环境中生存。

更重要的是,WALL-B能让机器人能够在与真实世界的持续交互中不断产生新数据、回流新经验,并推动模型完成自我进化,形成“进家庭—获取数据—模型自我进化—再进更多家庭”的正向数据飞轮。

一旦这个飞轮真正转起来,数据就会变成模型持续成长的燃料,像自变量这样更早进入真实场景、积累更多高质量交互数据的企业,就能够不断扩大自身的领先优势。

四、机器人1个月后入驻真实家庭,在工作中越变越聪明

前阵子,自变量和58同城合作,将搭载WALL-AS模型的机器人送入真实家庭,与保洁阿姨协同作业,在全球首次机器人进入家庭作业。

这次,王潜明确表示,将在5月25日,让搭载WALL-B模型的机器人进入真实家庭干活。

对于机器人进入家庭后可能会带来的隐私问题,王潜提到,自变量会采用视觉脱敏、透明授权、用途限定的方案来保证用户的隐私安全。

机器人进家庭这件事的想象空间显然不止卖一台机器人,因为当机器人开始在家庭中长期驻留,它就不只是一个消费电子产品,更像是一个可持续更新的服务系统,可以通过服务订阅、功能更新和模型升级,不断提升它的能力。

对企业来说,这门生意不再是一次性卖机器,而是凭借持续服务和持续升级,与客户形成长期付费关系。

王潜也承认,当前模型仍处于“实习生”阶段,会犯错,需要远程协助,有时可能把拖鞋放到厨房、擦桌子擦到一半停下来思考。但其能够实现24小时不间断工作,且每工作一天都会因新数据的产生而变得更“聪明”。

结语:家庭这道终极考题,正成为机器人真正长大的地方

家庭既是具身智能最复杂、最琐碎、最难标准化的地方,也是最能检验机器人是否真正具备通用能力的终极目标场景。

今天的机器人也许还走得慢、做得笨,还经常犯错,但真正重要的变化是,它已经开始走进家庭,在这个充满随机性和不确定性的真实世界里,一边干活、一边学习,持续进化。

对于具身智能而言,这不只是一次场景落地,更像是一场真正意义上的启程:机器人已经在最复杂的地方,开始了自己的成长。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平