专访 vivo 总裁胡柏山：AI 已经很聪明了，vivo 要让它真正看懂世界

今年春节，OpenClaw 火了。短短两个月不到，它又冷下去了——又一场 AI 应用层面的热闹。

热闹散了，没人知道下一个 OpenClaw 是谁，也没人知道这些东西究竟在解决什么问题。

用影像旗舰手机拍下一张夜景当中的人脸，细节清晰到能看见眼眶里的水光。但手机可能并不清楚，主角刚才是否哭泣，也就无法理解这张佳作的情绪背景；再用长焦技能把数百米外的一个路人拉到面前，细节纤毫毕现。但你问手机：这个人是着急赶路，还是在找什么东西？手机仍然不知道。

今天的 agent 能写代码、能操控网页、能把一份 PDF 整理成会议纪要。这些它都做得不错。但这些事情有一个共同点：处理的全是人类已经事先转好格式的信息。文件、数据库、网页，都是数字化过的世界。一旦面对物理世界，一扇门、一段动作、一个表情，它们是失明的。

从今天的大模型，到能真正读懂物理世界的所谓「具身智能」，中间有一道鸿沟，现在没有人说得清楚怎么填。

这道鸿沟，是胡柏山在博鳌亚洲论坛上花了最多时间讲的一件事。

胡柏山是 vivo 总裁兼首席运营官。在博鳌亚洲论坛，他告诉爱范儿，自己有一个很直接的判断：「在明确的物理大模型没有出来之前，要有好的体验，就要把物理世界的信息转化到数字世界。」

他相信，这件事，不仅手机可以做，而且应该用手机去做。甚至在未来十年里，其它设备都很难替代。

拼大脑，没有护城河

过去两年，几乎所有手机厂商都在说「AI 手机」。大模型接入、智能助手升级、端侧算力提升，这些能力以肉眼可见的速度在普及。

去年 DeepSeek 横空出世，今年 OpenClaw 引爆讨论，各家都在抢着把最新的模型能力塞进自己的产品。

这场军备竞赛，有一个必然的结局：大模型的高度商品化、同质化、可替代化。

「大脑同质化很严重，大模型和大模型之间区别不大，只是时间先后的区别。」胡柏山对爱范儿表示。这句话归纳了他对整个 AI 手机竞争格局的判断，也即：拼模型能力，没有护城河。

你比友商快三个月上线某大模型，以及大模型驱动的 agent 功能；友商六个月后跟上，用的模型和 agent 能力都比你更强。时间上的领先、花费的金钱和精力，卷出的工时和损耗的员工健康，价值又是什么？

于是，真正的差异化只能在别处找。

vivo 给出的答案是「感知」。

感知，是 vivo 刚刚成立的新技术赛道。

中外互联网公司和手机品牌纷纷加速进军「AI 手机」。行业一度以为模型能力会成为手机厂商的护城河。

在胡柏山看来，实际并非如此。「相比模型而言，积累下来的场景数据才最有差异化。」紧接着他补了一句：「当然，该做还是要做，要做就找适合我们的，可以做慢一点，晚一点也 ok。」

当被问及「如果不看好大语言模型，vivo 会否发力世界模型」时，他的回答更加保守却又直接：「世界模型也很大。我们还是找适合我们的技术路径。我们先把手机模型搞好，小模型搞好。」

当今 AI / 互联网科技巨头大打人才争夺战，顶级研究精英如 NBA 巨星般抢手，转会费一再突破新高。但胡柏山并不认为 vivo 应该为这团火再添柴。他告诉爱范儿，先想清楚思路，看清方向，定好技术平台，再发力，完全不迟。

在这个所有人都在比拼模型能力和 AI 人才储备的时间点上，掌门人直接把 vivo 的优劣势与行动纲领展开在媒体面前。这种坦诚令人印象深刻：vivo 的稳健、谨慎，究竟有何用意？

胡柏山在博鳌亚洲论坛峰会接受媒体采访

胡柏山回应称，vivo 从不回避竞争。相比模型、算力，未来最大的差异化是来自于场景数据。

场景数据，是跟着使用行为逐渐积累的，不能批发，不能抄近路——影像数据尤其如此。经过十年光学硬件积累、用真实场景训练出来的感知判断，没有捷径。

而这些积累与判断，构成了 vivo 接下来押注的「感知」的底层。这些东西，其他人（无论友商还是互联网/AI 公司）想要，也只能自己去积累。

这就回到了刚才那道鸿沟。大模型的训练数据是互联网信息，而这些信息已经被数字化。但现实世界里大多数有价值的信息，还没被数字化。那些无法或很难被转化，或者转化起来成本极高的数据，成为了 AI 走向现实世界的障碍。

光线、空间、人脸、动作、情绪，这些东西存在于物理世界，需要被感知、被转化，才能成为模型可以处理的输入。谁的感知做得好，谁就控制了大模型进入现实世界的那扇门。

现在，没有人知道这扇门后面是什么，也没有人知道最后会是谁站在那里。

押注「感知」

感知不只是「更好的相机」，这一点 vivo 很清楚。

胡柏山说，相机是记录工具，它等你按下快门。但感知是另一件事：持续观察、理解正在发生什么，把这些信息转化成设备可以直接使用的输入。7×24 小时，不需要你触发。

从「记录」到「感知」，中间隔着一个系统架构的重建。

胡柏山给这件事起了个名字：「感知一体」。字面意思，是感知到的信息和设备的决策系统要即时打通。这一点，现在还做不到。

难点在于，原始的感知场景数据，比如一段视频、一张图、麦克风收到的声音，体量巨大，格式混乱，里面大部分是噪声。把这些原始信号转化成手机真正「读得懂」的结构化信息，需要一整套专门的处理链路。

「怎么把数据转换成手机能够读懂的数据，是最难的。这个领域开源资源少，需要自主探索，」他说。

这也是为什么 vivo 在内部把感知设为一级技术赛道。

「一级」意味着感知不再是影像部门下面的一个子方向，它会统揽包括视、听、嗅、触等多种感官种类，和感知方向。

不过，vivo 的感知研究与研发工作仍处在初期阶段。胡柏山用 vivo 的通信研究院做了一个类比：大约 200 人的团队，从 4G 开始持续投入，走过 5G，现在在做 6G，已经十几年了。

对于感知赛道，他的预期是相似的节奏：小团队作战，先构建认知。认知清晰了，开始加油门；等待软硬件生态成熟了后，油门再往下踩。「有一种渐进式加速、螺旋上升的感觉。我们拒绝一脚油门一脚刹车。」

胡柏山不希望 vivo 做感知计算，以及做任何事情，出现拍脑门、砸大钱的做法。他认为，感知是一个天花板很高，但今天没人能说清楚正确的技术演进路线是什么的东西。「我们准备好用五年、十年的周期来持续投入。但我们对这件事的认知获取，要循序渐进。认知没到，砸钱都是烂尾工程。」

感知赛道是一个判断，但判断要落地，需要现成的积累。

vivo 的底牌是十年影像。具体看，这十年沉淀的东西有两层。

第一层是硬件。与蔡司的合作，如今已经走到了联合研发的深水阶段，传感器尺寸这一轮 X300 Ultra 的主摄升到了 1/1.12 英寸，和索尼的合作在往提升半导体转化效率的方向走——他提到了感官技术方面的「雪崩效应」，一种可以把感光元件的进光转化率，从 90% 推到 110% 以上甚至更高的新技术路径。

在硬件层面，胡柏山的判断和行业观察者及媒体大致相同，传感器尺寸已经卷到了边际收益递减的阶段，接下来更大的空间在转化效率和外挂形态——在 X300 Ultra 上，vivo 已经做了 200mm、400mm 定焦增距镜，还有更多在路上。

第二层是算法和认知。

vivo 三年前提出长焦大底，两年后全行业跟上。但跟上硬件很容易，「为什么是那个时间点做这件事」，这个判断很难。vivo 为什么选择在那个时间点上做这件事，动机来自于在影像上多年领跑的经验所形成的认知——没有可以搬运和复制的捷径。

「算法跟认知强相关——认知知道要什么方向，算法匹配，这是需求和技术的有机结合，对手很难快速跟上。」

这个逻辑延伸到端侧 AI 上同样成立。在 X300 Ultra 上，vivo 首次提出了一种「多 agent」理念，也即：

你举起手机拍一张照片，有个 agent 在判断你在拍什么、用多远的焦段、在什么光线下——这个判断，以前需要用户自己去做。而另一个 agent 在整理你的相册，根据你过去的修图习惯推荐或自动添加滤镜，又或者它能自动把几段素材剪成一条可以直接发的短视频。

这不是那种统一的「超级 agent」，比如 Gemini 或豆包手机助手那样的，而是每个场景一个专项 agent，既互通有无，又各干各的。

胡柏山的理由很实际：现有的硬件算力撑不起一个什么都管的大 agent，手机AI的发展要结合硬件的能力上限来推进。

这些工作仰仗 vivo 在端侧 AI 推理上的持续投入。据爱范儿了解，vivo 是手机厂商当中目前在算力购买上花钱最多的——不仅是云端算力，接下来的押注方向，是在旗舰机上嵌入专用的算力芯片。

vivo 的节奏是：先把不要求实时响应的 agent 做好，影像和相册是当前优先级；全域感知是五到十年的目标，always-on、全时段在线、所有感官打通，这是最终的方向。

一切交给时间

今后十年的 vivo，会去往什么方向？

胡柏山给了一个大概的路线图：手机是现在用户的核心产品，往后至少 10 年也仍然不变；MR 需要三到四年；机器人是五年以上。

这三个方向不是各自独立的押注，底层是同一套感知能力在不同形态上的延伸。

vivo 去年成立了机器人 Lab，聚焦「大脑和眼睛」。当被问及目前进展如何，胡柏山很直接地摊牌：「2025年把阶段性目标梳理地更加清楚，2026年进入整个路径的清晰规划。」

但这对于 vivo 来说并不是问题。

在一个各家都在发布机器人样机、争相宣称「具身智能元年」的节点，承认自己还没手搓出实物，是一种不多见的坦诚。胡柏山说「手搓一个机器人不是我们要干的。」

vivo 的机器人逻辑，和感知赛道的投入逻辑是一套：先想清楚目标用户是谁，再定义场景，再识别核心技术控制点，再等技术成熟度到位。

胡柏山告诉爱范儿，目前 vivo 还在论证第一步。他们倾向于服务年轻人，这也正是 vivo 从旗舰到年轻系列产品线一直希望抢占心智的群体。vivo 的第一代家庭机器人，可能的起点，是照顾宠物和叠衣服也说不定。

但这个场景，会不会太小？胡柏山认为，不能一上来就做通用机器人，不可能刚一开始就把所有的场景都做好。如果你非要那么做，最终的结果也只能是每个场景都不及格。

诚然，今天的具身智能机器人，可能做预录制的舞蹈能做到一百分，其他场景都没有足够的说服力。特别是在家务场景，「就说打鸡蛋这件事，想要做到百分百成功率，人都不一定，机器人十年内也做不到。」

胡柏山希望，vivo 的机器人能够先把一件具体的事情做到 60-70 分，然后一代一代泛化，优化现有的场景，再获得新的能力。

喂好了宠物，数据就来了。数据够了，机器人就知道这只狗每天几点饿，进而知道这家人几点起床，进而知道这家人的生活节律。不需要一步到位，因为每一步都在为下一步备料。胡柏山管这叫「沿途下蛋」。

这个逻辑，和在手机端押注感知的逻辑，是统一的：先把影像 agent 做好，场景数据够了，感知能力才往外延伸。

但在机器人的旁边，手机扮演什么角色？「手机是最懂你的随身数字助理。你的行为习惯、偏好、你喜欢养什么宠物，都在手机里。」胡柏山说，机器人早期做不好的事，手机可以遥控介入补足。

就像自动驾驶的早期，人类一直在干预，干预产生数据，数据让系统越来越好。「手机和机器人之间，数据是打通的。」

当然，他也没有把话说满。感知这个赛道，其他人也在做。包括苹果、谷歌等在内都有自己的感知计算框架。vivo 在这个方向上的竞争空间，更多在手机端的小模型感知这个细分方向。这是除了苹果以外的大厂，暂时没有重点关注的地方。

今年，胡柏山给机器人 Lab 设的任务，是把路径图画出来：目标用户、核心场景、关键技术节点、以及「技术成熟到可以商业化」的时间预期。

vivo 叫停了 AI 眼镜项目。他算了一笔账：一年几十万台，不符合目标体量；两年内又做不出差异化；技术平台目前也撑不起 80 分以上的体验（超过 30g 戴在鼻子上会很累）——三个条件一个都没过，砍掉没毛病。

「三年后做也不着急，它不是关键品类。」

不过，这个决定放在今天的背景下，还是有点逆势。2025 年 AI 眼镜是行业里最热的新品类之一，这个事实有目共睹。Ray-Ban Meta 卖爆，国内跟进者一茬接一茬。

创始人兼 CEO 沈炜在年会上表示，vivo 今年的策略是「少押注，押重注」。vivo 选择给 AI 眼镜按下暂停键，但将感知赛道的存在地位升级，其实是统一的逻辑和筛选标准的一体两面：一个赛道的天花板够不够高、vivo 自身的差异化属性够不够、技术平台能不能支撑长期投入。

这种思路，与近期 OpenAI 等在内的硅谷巨头，摒弃「支线任务」，聚焦真正长板的思路不谋而合。

2026 年选定的道路，vivo 会走到哪，现在胡柏山也还给不出答案。感知一体化的技术难题还没有解，端侧专用芯片的落地有难度，机器人的路径图今年才刚开始画。

胡柏山知道这些，也没有回避。他说，认知到了加油门，认知没到宁可慢。

手机行业正在经历一个奇怪的时刻：换机周期拉长到四十个月，中国市场年销量从高峰期的五亿多部跌到现在约 2.5 亿部，存量市场的天花板清晰可见；但 AI 带来的能力跃升，又让所有人觉得什么地方似乎还藏着一点增量。

胡柏山的判断是，从 Smartphone（智能手机）到 Agent Phone（智能体手机），才是把存量市场变成增量市场的机会。而感知，是这个机会里他认为最难被复制的护城河。

接下来交给时间。

专访 vivo 总裁胡柏山：AI 已经很聪明了，vivo 要让它真正看懂世界

Published by

风君子

最新文章

标签

书签