刚刚，星海图甩出具身智能全家桶：双足人形、VLA模型、世界模型齐亮相

机器人前瞻（公众号：robot_pro）

作者 | 江宇

编辑 | 漠影

机器人前瞻6月16日报道，刚刚，北京具身智能独角兽星海图正式发布并开源新一代VLA基础模型G0.5，公布世界模型Fast-WAM与全身控制基础模型，自研双足人形机器人Kengo（行客）也在展区完成首秀。

在现场，星海图也首次完整披露自己的具身智能技术路线。星海图CEO高继扬提出，具身智能正在经历“本能智能—作业智能—进化智能”的三重跃迁。他认为，过去是人定义机器人，未来则会是AI定义机器人。

刚刚，星海图甩出具身智能全家桶：双足人形、VLA模型、世界模型齐亮相

高继扬的主题演讲从一张旧照片讲起。照片拍摄于2023年8月，画面中是他与两位联合创始人赵行、李天威，地点是一家投资机构门口。当时那家机构后来并没有投资星海图，但高继扬说，那里是“一切的原点和开始”。

刚刚，星海图甩出具身智能全家桶：双足人形、VLA模型、世界模型齐亮相

这张照片背后也带出了星海图的创业起点。高继扬回忆称，当时具身智能这个词还没有今天这么热，创业初期“激昂和迷茫同时交织”。

但有两件事，星海图从一开始就想得很清楚：

第一，具身智能未来会是“一脑多形”，双足人形只会是其中一种形态；

第二，具身智能未来的长期壁垒，来自构建物理世界的数据闭环，而星海图实现这件事的关键路线是“整机智能”。

这也解释了星海图过去两年的产品选择。2024年，星海图并没有先做更受关注的双足人形，而是选择从轮式双臂机器人切入。2024年10月，星海图完成首批R1交付，第一个客户就是斯坦福大学李飞飞团队。

到2025年第一季度，星海图推出R1 PRO和R1 Lite两款主力产品。高继扬称，这两款产品不仅是星海图在轮臂品类上的代表作，也成为行业和市场中轮臂形态的重要组成部分。

刚刚，星海图甩出具身智能全家桶：双足人形、VLA模型、世界模型齐亮相

在数据和模型侧，星海图2025年8月发布了具身智能开放场景操作数据集GOD，以及基于这一数据集训练的具身基础模型G0。高继扬提到，GOD数据集大约500小时、10TB，目前下载量已突破60万次。

此次大会上，星海图还与北京亦庄共建的数据公司“亦数智能”正式揭牌，并启动100万小时超高质量真实数据计划。该计划未来三年将从百万小时迈向千万小时。

在高继扬看来，外界过去对星海图有过不同判断。2024年有人说星海图是硬件公司，2025年又有人说星海图是数据公司。但他认为，星海图所做的一切，都是围绕具身智能生产力和具身智能基础模型展开。

开发者大会期间，星海图CEO高继扬与智东西等媒体进行了约一小时交流。

刚刚，星海图甩出具身智能全家桶：双足人形、VLA模型、世界模型齐亮相

群访中，最新双足人形机器人Kengo也来到现场，与媒体打招呼。围绕这款机器人，高继扬进一步谈到其东方文化取向的命名与设计思路，并透露星海图将在今年下半年推出新一代轮式双臂产品，设计上也会融入更多东方元素。

从数据路线、模型架构、本体设计，到商业化节奏、开发者市场和产业泡沫，高继扬回应了外界关注的多个问题，并抛出不少关键判断：

1、数据路线：VLA与世界模型并非对立路线，二者底层都依赖多模态数据Token化，未来会继续走向融合。星海图当前预训练仍以真实数据为主，至少在百万小时数据规模前，看不到仿真数据对公司路线的必要性。

2、数据成本：具身智能不应只看数据单项成本，而要看智能总成本。真实数据成本虽高，但相比训练所需算力投入仍然划算。以星海图实践来看，百万小时数据采集投入大约在1亿到2亿元人民币。

3、双足机器人：Kengo并不是简单追逐人形热度。结构化场景里轮式双臂仍有优势，双足真正要解决的是进入更复杂空间后的移动和操作问题。

4、商业化阶段：今天具身智能行业仍以整机销售为主，成熟市场主要是开发者、科研教育和展演娱乐。真正面向生产力场景的方案订阅，还没有大规模展开。

5、落地节奏：星海图不会在整机销售阶段追求绝对第一，而是更看重由智能驱动的第二阶段商业化。高继扬认为，在技术尚未支撑生产力场景前，过早大规模商业化反而可能成为负债。

6、行业泡沫：科技行业发展往往伴随泡沫，关键是企业能否把资本、关注度和产业资源转化为真正解决问题的能力。星海图内部强调“务实创新”，即解决问题的创新才有价值。

7、生态投资：星海图联合凯辉基金发起“星途计划”，并不只是财务投资，团队希望围绕具身智能的新技术、新应用，找到一批长期主义创业团队，共同塑造产业生态。

一、如何定义星海图？高继扬披露完整路线

高继扬在开场演讲中提到，如果要定义今天的星海图，可以用三句话概括。

刚刚，星海图甩出具身智能全家桶：双足人形、VLA模型、世界模型齐亮相

第一，星海图是一家具身智能大脑企业。他解释，具身大脑最重要的事情，是做具身智能基础模型的预训练。基础模型预训练会带来一种不同于传统制造业的规模效应，传统行业更多是造得越多越便宜，而人工智能企业的规模效应是“学得越多越聪明”。

第二，星海图的整机与供应链更为扎实。具身智能不是纯软件AI，而是软硬结合，星海图从第一天起就坚持整机和智能一起做。高继扬提到，到今天为止，星海图80%的动力单元由公司自研，或与产业链伙伴共研。

刚刚，星海图甩出具身智能全家桶：双足人形、VLA模型、世界模型齐亮相

第三，在具身大脑的技术路线中，星海图是国内最早押注真实数据的公司。高继扬认为，真实数据是通往具身智能未来的重要路线，G0.5的发布正是这一路线的阶段性结果。

这三句话背后，是星海图对“整机智能”的理解。高继扬认为，整机有两个重要作用：一是智能的数据载体，二是智能的商品载体。

大语言模型发展早期，有两个先天条件：互联网已经把大量人类数据数字化，每个人手中的手机和电脑也能承载模型能力。但具身智能并没有这样的现成条件，过去真实世界数据没有被系统数字化，也没有一个现成终端能承接具身智能基础模型。这也是星海图从一开始重视整机的原因。

不过，高继扬也强调，星海图不是一家研发制造型企业，而是人工智能型企业。他认为，驱动具身智能行业发展的核心动力来自AI，因此本体也应该围绕智能需求来定义。

二、为什么做双足？为了走进真实世界

Kengo是星海图此次大会备受关注的新品之一。Kengo以高性能运动小脑与具身大脑为核心，既能完成四连踢等高难度全身动作，也能完成递物、搬箱、叠衣等贴近真实场景的双臂作业。

刚刚，星海图甩出具身智能全家桶：双足人形、VLA模型、世界模型齐亮相

高继扬在现场解释，星海图此前长期做操作、大脑和轮臂，外界可能会疑惑为什么现在要做双足。他给出的答案是：轮式双臂机器人适合结构化场景中的作业，但星海图的目标是通用场景的生产力，而通用场景中有一类重要环境是非结构化场景。

在这些场景里，机器人需要进入楼梯、门、通道、工位等按人类身体设计的现实环境。星海图做双足人形并非为了像人，而是因为机器人要进入物理世界，需要先有一副“走得进去”的身体。

高继扬提到，星海图在2025年春节前后决定自研双足机器人。在Kengo上，动力单元模组、齿轮和电机同样由星海图自研，或与产业链伙伴共研。他还提到，动力模组对整机非常关键。

一方面，模型表现会受到动力单元影响，例如减速器背隙大小会影响模型最终表现；另一方面，从现在到未来三到五年，动力模组在整机BOM中的占比预计会维持在40%到45%。这也是星海图较早决定深入动力模组研发的原因。

随着Kengo发布，星海图完成了“整机智能”的闭环。高继扬在演讲中提到，星海图将成为同时拥有顶尖模型与顶尖本体的具身智能企业。

三、新一代VLA模型G0.5开源：发力作业智能

在演讲中，高继扬还提到具身智能能够拆成三层：本能智能、作业智能和进化智能。本能智能直接作用于本体，让机器人学会控制自己的身体；作业智能建立在本能智能之上，让机器人像人一样有序完成任务；进化智能则更进一步，让AI围绕任务、场景和数据，反向定义机器人的身体形态。

刚刚，星海图甩出具身智能全家桶：双足人形、VLA模型、世界模型齐亮相

在他看来，星海图从去年8月开始发布的G系列模型，就是作业智能这条主线上的模型。

星海图此次正式发布并开源了VLA基础模型G0.5。G0.5实现了从任务后训练到零样本泛化的跨越。面对没见过的新物体，它可以直接操作；面对新的布局场景，它可以自主适应；面对新的语言指令组合，它也能理解并执行。

G0.5采用统一自回归VLA架构，将视觉理解、语言推理与动作生成放进同一模型链路，实现边思考边行动的原生动作思维能力，并沉淀抓取、放置、推拉等可迁移基础动作单元。

高继扬称，相较此前模型，G0.5在数据量和模型架构上都有提升。G0.5刷新全球7大权威榜单，稳居全球第一梯队、国内第一。

刚刚，星海图甩出具身智能全家桶：双足人形、VLA模型、世界模型齐亮相

与此同时，星海图还公布了后续路线图：G0.7将面向长程双臂作业，G1.0则指向通用双臂作业智能。

支撑作业智能实时落地的，还有世界模型Fast-WAM。传统路径通常是先想象未来视频，再执行动作，延迟较高。Fast-WAM则在训练阶段学习视频世界模型，在推理阶段直接生成动作，将单步推理延迟压缩至190毫秒，较传统架构提速4倍以上。

四、百万小时真实数据计划启动，具身智能要补上自己的“互联网”

数据是星海图本次开发者大会的另一条主线。高继扬在现场提到，过去几年，具身智能行业的数据量大多还停留在几千小时、几万小时、十几万小时级别。到了今年，头部企业会进入百万小时量级，未来两三年可能来到千万小时量级。

为了说明这个量级的意义，他做了两个类比：一个人从0到18岁，醒着并与物理世界交互的总时长大约是10万小时；100万小时相当于10个人类的学习时间，1000万小时相当于100个人类的学习时间。另一个类比是，如果把大语言模型的训练Token折算到具身基础模型训练小时数，大约也会落在百万小时到千万小时之间。

因此，他判断，在百万小时到千万小时之间，某个数据量级训练出来的具身基础模型，可能会带来明显变化。

高继扬还判断：过去外界更多关注中国在硬件和零部件供应链上的优势，但从今年开始，数据供应链的优势也会凸显出来。硬件供应链和数据供应链叠加，将成为未来具身智能竞争中的重要变量。

五、从开发者到生产力，真正的商业化还在后面

高继扬把星海图过去两年的市场策略概括为“从开发者到生产力”。

过去，星海图服务了数百家机构型开发者，包括学术团队、企业研究团队和创业公司。他在现场提到，斯坦福李飞飞团队从2024年开始与星海图合作，做了一系列学术工作；英伟达与星海图合作验证异构数据有效性；一些YC创业公司则使用星海图产品做仓储搬运等应用。

他还判断，个人开发者未来也会变得重要。星海图将围绕个人开发者推出一系列产品，让更多人像玩3D打印机一样，把具身智能“玩起来”。

在生产力落地上，高继扬用速度、精度和泛化能力三个维度描述当前基础模型边界。

他认为，今年和明年，具身基础模型大致处在厘米级精度、约80%人类操作速度、少量数据即可学习新任务的阶段。这样的能力已经可以在工业上下料搬运、物流供包翻包、电商零售分拣打包等场景中释放价值。

随着操作精度从厘米级走向毫米级，制造业中的插拔、线束、装配、组装等场景会被进一步打开。而从制造业、服务业迈向农业、建筑等更复杂场景时，机器人需要进入非结构化环境，双足或四足等形态的重要性会继续上升。

商业模式上，高继扬判断，具身智能会经历三个阶段：第一阶段是整机销售，第二阶段是方案订阅，第三阶段是Token销售。当前行业仍处于整机销售阶段，很多产品销售对象还是开发者、科研机构、场景应用方，也包括部分展演需求。

刚刚，星海图甩出具身智能全家桶：双足人形、VLA模型、世界模型齐亮相

他认为，星海图并不追求在第一阶段做出特别大的商业化规模，更看重从第二阶段开始，也就是真正由智能驱动的商业化领先。

在此背景下，星海图联合凯辉基金发起这一创业孵化项目，面向具身智能早期创业团队。过去，星海图一年已陆续投资七八家企业，未来3到5年希望助力30到50家企业成长。

六、高继扬谈透数据、本体和商业化

在约一小时的群访中，高继扬回答了近二十个问题。

我们将10个关键问题的答案，整理如下：

Q1：VLA和世界模型的数据能否通用？二者是不是两条对立路线？

高继扬认为，VLA和世界模型并不是对立路线，而是“同源共生”，未来会越来越走向融合。他提到，从底层看，二者都是将多模态数据Token化，再通过多层Transformer编码，只是在监督方式、训练方式和部分架构上有所不同。因此，从数据角度看，二者可以互用、混用。

他进一步解释，星海图采集数据，本质上是为了铺满四个维度：动作、对象、场景和本体。Human centric data和Robot centric data各有作用，前者采集效率更高，后者则更贴近最终部署的机器人本体。不同数据类型组合起来，才能让模型在四个维度上获得更完整的覆盖。

Q2：真实数据成本高，星海图为什么仍坚持真实数据路线？

高继扬透露，星海图当前预训练基本全部使用真实数据，至少在百万小时数据规模之前，公司看不到仿真数据的必要性。他认为，真实数据能更快、更有效地铺满动作、对象、场景和本体四个空间。

关于成本问题，他认为不应只看数据单项成本，而要看“智能总成本”。在星海图的实践中，数据成本和算力成本至少是1:10的关系，也就是说，一块钱的数据，往往需要十块钱算力去训练，才能把模型训明白。

他提到，Human centric data成本大约为50元到100元人民币一小时，Robot centric data算上人工、设备折旧等成本，大约为250元人民币一小时。综合来看，百万小时数据采集成本大约在1亿到2亿元人民币。相比大语言模型训练每年几亿美元级别的算力支出，这笔投入仍然值得花。

Q3：具身智能的商业模式是否已经拉开身位差？

谈及宇树等公司在整机销售上的收入表现，高继扬认为，今天具身智能行业几乎所有销售仍以整机为中心，成熟市场主要有两个：开发者、科研教育市场，以及表演娱乐市场。宇树在展演娱乐市场领先，是一个事实。

但他强调，星海图所说的第二阶段商业模式，是面向生产力场景的方案订阅。到目前为止，还没有任何一家企业真正有效地在生产力场景里大规模作业。相比开发者市场和展演娱乐市场，生产力市场的规模要大得多，因为它本质上对应的是对GDP背后各类生产活动的改写。

在他看来，真正的“星辰大海”还没有展开。

Q4：Kengo的关节模组和成本有什么特点？

高继扬称，Kengo整机采用EC通信，相比CAN通信、485通信，同步性更好，但研发难度也更高。为了做好EC通信，星海图需要在中空设计、电机、电磁仿真、减速器设计等方面做大量调整和优化。

他判断，未来两年左右，无论是Kengo这类双足机器人，还是R1这类轮式双臂机器人，行业内部分产品的硬件BOM成本有望稳定在1万美元左右，甚至更低。但他也强调，成本并不决定商业化能力，真正决定商业化潜力的仍然是大脑，也就是机器人能干什么活。

在他看来，整机和供应链是有限游戏，智能和应用才是无限游戏。企业必须先把整机和供应链做好，才有机会进入后面的智能和应用竞争。

Q5：百万小时、千万小时数据计划怎么实现？

高继扬提到，星海图实现百万小时、千万小时数据计划的方式，一方面依托亦数智能平台和亦庄开放的采集场景，另一方面会采用外包采集与众包采集结合的模式。

众包采集更接近“生产伴随式采集”，也就是让人在日常工作或作业过程中佩戴设备进行采集；外包采集则是针对特定场景和任务，雇佣人员进行专项采集。

Q6：星海图为什么做“星途计划”？

谈及联合凯辉基金发起的“星途计划”，高继扬认为，具身智能行业未来还有很多新技术和新应用机会，也会有更多优秀人才进入。他说，星海图希望做的不只是技术和产品，也希望参与塑造一个新产业。

他提到，凯辉基金的全球化布局是星海图看重的一点。星海图希望立足中国，同时联动全球、布局全球。

对于被投资企业，高继扬称，星海图并不追求对方短期必须带来什么回报。具身智能是一个10年、20年乃至30年的事业，星海图更希望找到一批有长期主义使命的人一起成长。

Q7：怎么看具身智能行业泡沫？

高继扬认为，任何科技行业发展都会伴随泡沫。泡沫的本质，是人们无法精准预测一个新事物的发展，因此在阶段性判断中给出过高估计。

在他看来，赢家往往能在泡沫膨胀和泡沫破灭阶段都获益。对星海图来说，在行业关注度和资本投入较高的阶段，要做的是把资金、注意力和产业资源转化为真正解决问题的能力。

他提到，星海图内部有一个价值观叫“务实创新”，也就是解决问题的创新才有价值。在研发上，星海图会围绕智能主线和几类核心整机投入；在商业化上，则坚持“从开发者到生产力”，不追求超越当前技术阶段的商业化。

Q8：为什么不在整机销售阶段追求绝对第一？

高继扬澄清，星海图并不是不做商业化，而是不追求在第一阶段，也就是整机销售阶段追求绝对第一。他提到，今年星海图销售额会比去年有数倍增长，去年也比前年实现十倍增长，但公司会按照自己的节奏成长，不会陷入恶性竞争。

他认为，在整机销售阶段冲绝对规模，很多时候不是资产，而是负债。星海图更看重第二阶段，也就是智能驱动的商业化开始之后，再去追求更强的市场位置。

面对行业中一些大规模下线、工厂展示或大额订单的宣传，高继扬认为，判断商业化是否合理，要看它是否符合产业成熟规律。当前真正商业驱动的市场主要是开发者市场和产业展示市场，其他过早强行进入生产力场景的做法，容易让客户、团队和供应链都承受压力。

Q9：Benchmark大家都拿第一，应该怎么看？

高继扬认为，当前具身智能Benchmark确实存在不够公允、参考性偏低的问题。但在更好的评价体系出现之前，企业仍然只能基于现有Benchmark做一些评价。

他提到，星海图内部已经构建了一套更详细、更丰富的Benchmark体系，用来评估自有模型和开源模型。他认为，“第一”有很多评价维度，传播上大家会追求第一，但更重要的是实事求是，做出真正好的东西，最终社区和市场会给出评价。

Q10：星海图做模型、数据和整机，资源分配上谁更重要？

高继扬认为，星海图战略上是“整机智能”，二者缺一不可。物理世界的生产力释放，只有模型不够，整机还需要具备可靠性、一致性和负载能力。

不过，从公司定位看，星海图首先仍是一家具身智能大脑企业。星海图重视硬件，也强调整机能力，但从研发投入看，整机研发投入显著低于智能研发投入，二者大约差一个数量级。

结语：具身智能进入系统战

这次开发者大会，星海图一次性把模型、本体、数据和生态计划都说清楚了。可见，具身智能的竞争已演化为模型、数据、本体、供应链和场景共同作用的系统战。

星海图这次给出的答案，是用基础模型牵引本体，用真实数据推动模型，再通过整机把能力带到开发者和场景里。当然，这个答案还需要更多真实验证。

这场硬仗，才刚刚开始。

刚刚，星海图甩出具身智能全家桶：双足人形、VLA模型、世界模型齐亮相

Published by

风君子

最新文章

标签

书签