人形机器人面临“现实落差”训练瓶颈 智元发布真实世界持续学习系统

1月6日,智元在官方公众号发布SOP(英文全称为Scalable Online Post-training,指一套面向真实世界部署的在线后训练系统)。

智元相关负责人告诉《每日经济新闻》记者,这是为了让人形机器人真实世界里持续进化。

一直以来,人形机器人行业对选用何种类型数据进行训练存在争议。有厂商使用模拟仿真工具进行训练,也有厂商选用真机进行训练。后者的训练方式一度被业内诟病,认为缺乏真实场景的训练,即训练出来的人形机器人无法部署于真实场景。

简而言之,使用实验室中真机收集的数据进行训练,人形机器人看似都能完成被布置的任务,但在实际使用中往往“手足无措”。

此次智元发布SOP框架,或有助于其补足关于真实场景的数据。

智元表示,现有VLA(视觉、语言、动作)预训练模型已经提供了强大的通用性。然而,真实世界的部署受困于更高的任务专精度要求,以及离线数据采集方式的边际效益递减,往往需要通过后训练获得更高的任务成功率。遗憾的是,当前主流的VLA后训练方法仍受离线、单机、串行采集等因素制约,难以支撑高效、持续的真实世界学习。这些限制并非源自具体算法,而是来自学习范式本身。

因此,智元推出SOP框架的核心目标是让机器人在真实世界中实现分布式、持续的在线学习。

关于SOP框架的效果,智元表示,SOP让多任务通才的性能普遍提升。

此外,在预训练出现边际效应递减的背景下,SOP将有助于突破VLA的性能瓶颈。智元表示,SOP在三小时的在轨经验下就获得了约30%的性能提升,而80小时额外人类专家数据只带来了4%的提升。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平