人形机器人场内竞速场外求解“数据之困”

财联社4月19日讯（记者付静）今日上午7点30分，2026北京亦庄半程马拉松暨人形机器人半程马拉松正式鸣枪开跑。相比去年，本次参赛阵容实现了近5倍增长，去年的冠军天工Ultra、去年的亚军松延动力“小顽童”N2、宇树H1、荣耀“闪电”和“元气仔”等热门选手同台竞技成为看点。正如摩拳擦掌的机器人选手，具身智能产业正从百亿加速迈向千亿级规模，这场赛事是一次速度的角逐，更是产业成熟度的试炼场。

财联社记者近期多方采访业内人士获悉，2026年被称为是具身智能的“数据元年”，数据是具身智能亟待跨越的关键一关。不少受访者明确表示，数据是具身智能厂商在未来竞争中的核心壁垒。

目前，具身智能领域数据缺口量级极大，特别是真实世界数据稀缺。建设数据采集中心及仿真平台成为行业主流做法，不仅是机器人公司，云厂商、数据服务商、数据交易所等角色也积极入局，旨在共同解决数据挑战。不过由于大部分数采中心投入使用和产出情况尚不明朗、仿真数据的效果也存在局限，现有路径能否真正解决具身智能数据之困，仍待观察。

“数据元年”已至

“此前具身智能长期受限于算法、硬件与数据不匹配，而今年行业从‘算法驱动’转向‘数据驱动’，数据成为模型落地、机器人量产的核心瓶颈。”上海库帕思科技有限公司语料运营总监邓思文在接受财联社记者采访时表示，高度认可“数据元年”这一判断。

“在今年之前大家其实比较重视的是本体能力，但是机器人要落地，那就势必需要大量的经验值让它学习，所以今年才称为‘数据元年’，不管是美国也好，中国也好，今年很多要落地的公司对于数据的渴求程度是很高的，前所未有的高。”帕西尼感知科技创始人许晋诚对财联社记者表示。

有鹿机器人联合创始人谷祖林也向财联社记者谈到，“数据元年，只是说现有的方法可以开启‘新纪元’，但最终解决问题的那个方法还需要多年收敛。”

2026年，面临数据难题的具身智能企业正加大力度建设数据采集工厂，成为受业内人士高度关注的一大趋势。

据高工人形机器人统计，全国现已有至少15家数据采集和训练工厂。

（图源高工人形机器人）

财联社记者获悉，近期帕西尼宣布将在江苏宿迁、湖北武汉、四川自贡、江西赣州建设4座超级数据采集工厂，连带已在天津落成的数据采集工厂，帕西尼将构建起全球规模最大、模态最全的具身智能数据采集工厂集群，具备年产近百亿条高质量全模态数据的产能。

“后续还会扩大规模，我们也会持续增强数据采集能力。”许晋诚对财联社记者称。

谷祖林告诉财联社记者，建设数采中心的趋势肯定是向好的，“数采中心的数据量在快速增长，实现了（数据难题破解）0-1的突破，这是大家能用上力的一种办法。而且政府当作基建来做，最后形成的社会公共资产，能回馈到社会。”

邓思文则认为，这种方式是行业走向成熟的必然过程。头部企业自建工厂，能满足个性化、高保密数据需求，适配自身硬件与算法。而借助行业数据标准建立，将带动数据生产规范化。“建设数采工厂，并非是与专业数据商形成竞争关系，而是分工协作，企业聚焦核心场景数据，数据商提供通用数据、补充数据与技术服务，共同完善数据生态。”

为解决数据挑战，云厂商也积极入局。

本月，财联社记者还从百度智能云方面获悉，其联合零次方、灵生科技、傅利叶、纬钛科技、拓元智慧、枢途科技、松应科技等具身智能企业，发布了具身智能数据超市（Beta版），首创层级化、可扩展的数据标签体系，加速具身智能规模化落地。

数据服务商角度，邓思文透露，“库帕思今年在具身智能领域业务增速显著提升，合作客户覆盖机器人厂商、模型企业、场景应用企业等，需求从零散数据采集转向全场景、标准化数据解决方案。”

谈及今年出现的核心趋势变化，邓思文谈到，一是客户从“要数据”转向“真实场景、长程任务、多样性、大样本的数据”，对数据标注精度、场景真实性要求大幅提高；二是真实世界数据需求爆发，取代纯互联网数据成为核心采购方向；三是数据服务从单一供给，转向“采集+标注+合成+治理+应用”一体化交付。

深圳数据交易所相关负责人也告诉财联社记者，数据交易所通过生态建设，对接了仿真数据厂商、数采厂服务商，结合数据基础设施和可信数据空间，可以给具身智能厂商提供高质量的实采和仿真数据。

邓思文总结了目前行业内针对数据问题的常见做法，一是多元数据融合供给，通过真机数据、仿真数据、人类行为数据互补，覆盖训练的全周期；二是标准化数据工厂建设，依照统一标准，搭建专业化采集产线，统一标注规范与质量体系，提升数据量产能力；三是行业数据平台化共建，联合企业、科研机构、数据商共建具身智能语料基座平台，降低单一主体成本；四是AI辅助数据生产，用大模型自动化采集、清洗、标注，提升效率并降低成本。

金字塔顶尤为单薄

据悉，具身智能数据形成了一个金字塔：底层是互联网数据，往上是人类行为数据，再往上是合成数据，顶层是真实世界数据。目前来看，这座金字塔的顶部尤为单薄。

邓思文对财联社记者表示，当前具身智能最稀缺的是顶层真实世界交互数据，具体集中在三类场景：一是复杂动态场景数据：家庭、商超、工厂等非结构化环境中，机器人与物体、人类的实时交互数据；二是精细操作数据：抓取、装配、柔性操作等毫米级动作的视觉与力控多模态数据；三是极端容错数据：突发障碍、非常规物体、环境突变下的应急处理数据。

智元联合创始人、总裁、CTO彭志辉也在最新接受媒体采访时谈到了“数据荒”问题：“相比大语言模型用了整个互联网的数据，我们还差3到5个数量级，数据缺口非常大。而且数据要求很高，不只是数字数据，还需要物理世界中的接触力、摩擦力、重力、粘滞力等高维数据。”

“去年行业内沉淀下来的有价值的数据，（时长）不超过3万个小时。可能有几十万个小时的数据没有太大价值，只能做预训练，很难做到泛化并提升(机器人操作)准确率。”近期的业绩发布会上，越疆创始人兼CEO刘培超这样谈到。

具身智能数据缺口究竟有多大，谷祖林认为很难量化。“既然有缺口就有目标。目标无非两种，一种是产品要满足客户要求，这种情况的缺口是极大的，涉及移动能力、操作能力甚至领域知识等等，得一点点来对标（人类）；另一种是完成细分、明确的任务，要求原子化的操作，这种情况缺口不大，但难点在于需要应对跟人类动态博弈的场景。”他进一步称，动态博弈数据存在较大的缺口。

许晋诚认为，除了数据多寡以外，也要关注模态能力。“触觉、视觉、关节角度、动作轨迹、语音等完整的多模态多维度的数据拼凑起来，才是一种很好的高质量数据积累。数据集就跟教科书一样，教科书写得好，我们学习起来就快。”同时他还注意到，当前数据和模型之间的工具链不够。

具身智能面临的数据难题，与自动驾驶领域也形成了鲜明对比。

邓思文称，对比自动驾驶已形成百万公里级成熟数据集，具身智能真实场景数据不足前者1/10，且标准化、标注完善的高质量数据占比不到30%，直接导致模型泛化能力弱、落地周期长。

一位机器人本体厂商创始人告诉财联社记者，“自动驾驶也是一种具身智能，可以大量地靠实体车在路上跑，去采很多数据。相比之下，机器人确实比较缺数据。”

“其实做本体也还是得考虑数据稀缺的问题，自己也要做市场，不能只买别人的训练结果，而且目前还有数据缺乏通用性的问题。”他进一步称。

此外，深圳数据交易所相关负责人提到，匹配具体机器人使用场景的数据采集成本很高。以制造业生产线机器人为例，因为实际每条生产线的数据都不一样，而且必须在真实场景中取得，所以数据采集难度大，成本高，效率低。

破题关键在哪里？

面对前述挑战，破题的关键在哪里？受访的多位从业者均告诉财联社记者，要形成数据飞轮、真正实现闭环。

谷祖林认为，数据一定要来自真实场景，真实场景数据才能形成闭环。

“我们的数据飞轮从去年下半年已经开始转起来了。”谷祖林介绍，公司的AI130巡扫机器人登顶2025年中国室外清扫机器人出货量榜首，销量更大，数据量也就更大、遇到的问题也更多，解决的问题也更多，客户更满意，产品销量就进一步提升。

他介绍，有鹿机器人在数据方面遵循的是先进园区门、再进单元门，最后进入户门的“数据三重门”逻辑。

“我们坚持以真实数据为主、仿真数据为辅，希望拿到最贴近用户生活的数据，把机器人送到了园区、小区里，虽然不是完整家庭场景，但也覆盖了生活场景的百分之五六十。去年我们已经投入超千台机器人进园区，今年计划再投小万台机器人。我们投放机器人由于能实现商业闭环，因此并非成本中心，其实是利润中心。数据是我们主要的目标，但数据本质也是一个副产品。”

他还向记者举例：在重庆，扫地机器人不小心清扫了园区里在地上晒的辣椒，可能会被客户投诉；第二天再出门时，机器人就已经了解到晒在门口的辣椒叫资产、并非垃圾。

前不久的中关村论坛上，星动纪元联合创始人席悦也表示，其公司构建了从数据采集到模型闭环的数据飞轮模式，让机器人在真实环境中自主处理corner case（边角案例），持续不断提升效率，同时该公司也在探索人类和真机搭配的数据采集模式。

帕西尼方面构建的则是底层核心感知硬件-全模态数据-上层智能决策大模型的闭环，从传感器切入包括数据采集工厂和云数据商城在内的具身智能数据领域的布局，旨在用数据推动软硬件优化，软硬件反哺数据，数据再反哺模型能力

如前所述，该公司更为关注具身智能全模态数据缺失的问题。

近日，该公司联合京东云、腾讯云、百度智能云共同打造的全球首个百亿级规模全模态具身智能数据云商城全面对外开放。据悉，云商城依托帕西尼五大自有数采工厂集群的实采数据，独家提供全球自由度最高（82）的人类手部五指动作数据，数据具备毫秒级精度，融合30个六维触觉模组，首次构建“视觉-触觉-语言-动作”的全模态闭环。

此外，其OmniSharing DB全模态数据集为国内首个系统性聚焦人类物理交互行为的高维数据集，已在北京国际大数据交易所、腾讯云等公共平台上线并开放。

主流解法仍面临争议

值得关注的是，业内多方正在探索的仿真合成数据仍然面临着一定的争议。

邓思文认为，其在具身智能数据体系中发挥着重要的规模化扩增作用，但从产业实践来看，无法独立解决数据难题。“真机数据的规模化采集和标准化建设，建立场景驱动、数据反哺、模型迭代的闭环，才是当前阶段突破数据瓶颈的核心抓手。”

以英伟达Isaac GR00T Blueprint为例（2025年1月），它可基于少量人类示范在11小时内生成78万条合成轨迹，结合真机数据后模型性能提升约40%；但仿真方案始终面临sim-to-real gap核心瓶颈，在触觉力反馈、长程任务链、Corner Case等维度的泛化能力有限。

“具身智能需要有实体，只是sim-to-real（从仿真到现实）是不太行的，它没法像软件那样只在网上就可以批量产生数据，或者抓网上数据就可以做训练，需要实际动作数据才能做训练，否则可能会带来比如人形机器人关节尺寸偏差、力矩效率减低、磨损等等影响。”前述创始人同时称。

邓思文称，从市场研判看，遥操作、仿真、生产伴随、视频学习等多方案应并存，本质是对成本、精度、规模三者的平衡，科学的数据配比（如真机与仿真1:1建设基线）是当前行业探索的关键方向。

基于前述观点，谷祖林还提到数采中心可能面临的局限：“数采中心还是人为创造的场景，因此其实（形成的）数据本质上也是一种仿真数据，而仿真数据最大的问题就是分布太集中。”

“（这个问题）我们其实也有在思考。可以在实际场景采集，但可能会影响数据的生产效率和质量，且我们（采集的数据）是用于模型的预训练。”许晋诚介绍。

据悉，在模型的后训练阶段，Zero-shot（零样本）‌或Few-shot（少样本）方法仅需少量（甚至不需要）场景数据。

财联社记者另外了解到，帕西尼数据工厂采用“无本体依赖”的数据采集范式，旨在摆脱对特定机器人本体的依赖，提升数据通用性。许晋诚告诉财联社记者，“无本体”范式最大优点在于数据采集效率和速度至少是“有本体”的3-4倍。另外他提到，利用重定向技术可以处理人类数据的跨任务泛化问题。

数据获取的成本也值得关注。

财联社记者通过一家机器人厂商了解到，由于存储价格上涨，当前数采工厂的成本也随之增加。

在成本问题上，帕西尼方面介绍，公司已将多维触觉传感器的价格从“十万元级”下探至“百元级”。且由于技术自研率超过90%，公司将单条数据的采集成本压低至行业均值的十分之一。

与此同时，高工人形机器人方面还指出，目前大部分数采中心投入使用和产出情况不明朗，是否可以实现规模化交付也未有明确的案例，这背后是难掩大规模数采中心的重资产压力以及数据本身的珍稀性。

“我们也看到有些数采厂规模不大，或者是专门服务于个别具身智能厂商，这样就难以形成规模效应，也难以产生高质量数据集。”深圳数据交易所方面谈到。

数据是核心壁垒

多位受访者告诉财联社记者，数据已成为具身智能企业的核心壁垒，比算法、硬件更能决定长期竞争力，机器人行业竞争本质是拥有好的数据获取方法。

“数据上的差异化会是厂商的核心竞争壁垒，甚至可能成为唯一竞争壁垒。看谁的数据量大且分布性广，我们拿数据量乘以分布广度，最后其实就是厂商的数据价值。”谷祖林称。

许晋诚表示，由于大部分数据还是来源于互联网、人类行为，具身智能数据的真正差异就在于是否具备全模态能力。

财联社记者此前报道，去年具身智能赛道一批估值超过百亿的公司接连涌现。不过融资呈现明显的“两头热、中间冷”特征，即早期天使轮和B轮及以上阶段融资活跃，中间轮次出现断层。换言之，这一赛道的头部效应愈发明显，资金正在向更具备量产、交付和商业化能力的企业集中。

而由于数据的获取需要大量成本，厂商之间的差距或也将进一步拉大。

在邓思文看来，头部厂商的确更易获取优质稀缺数据，头部企业有资金、量产能力与客户资源，能承担高成本真实数据采集，优先占据核心场景数据。同时，数据优势可直接转化为模型精度、产品落地速度、商业化能力，形成“数据-算法-产品-市场”的正向循环。

人形机器人场内竞速场外求解“数据之困”

Published by

风君子

最新文章

标签

书签