谷歌的“豆包手机”来了？

文观察者网孙珷

当地时间2月25日，三星在旧金山举行Galaxy Unpacked 2026发布会，正式推出Galaxy S26系列旗舰手机。但真正引爆科技圈讨论的，并非手机硬件本身，而是谷歌安卓生态系统总裁萨米尔·萨马特（Sameer Samat）登台展示的一项新功能——Gemini智能体，能够在后台自动完成订餐、叫车、购物等多步骤复杂任务。

这一幕，对于关注国内AI动态的观众来说，可谓“似曾相识”。

就在三个月前的2025年12月1日，字节跳动豆包团队发布了豆包手机助手技术预览版，展示了几乎完全一致的能力：系统级唤醒、跨应用自动操作、后台任务执行。搭载该助手的努比亚M153工程样机首批3万台一夜售罄，在科技圈引发现象级关注。

如今，全球科技巨头谷歌携手三星推出同样能力的产品，这是否意味着，跟随这一创新，谷歌的“豆包手机”也来了？

智能体AI：手机助手帮你办事

“安卓正从传统操作系统演变为一个真正理解并为你服务的智能系统。”萨马特在发布会上如此定义这次升级的意义。他将这项能力称为Gemini的“下一次进化”，让手机助手从“回答问题”升级为“帮你办事”。

在现场演示环节，萨马特展示了一个贴近日常的场景：一个家庭群聊里，成员们七嘴八舌地讨论晚餐点什么披萨。按照传统方式，用户需要自己阅读消息、记住每个人的口味偏好、打开外卖App、逐一添加菜品、核对地址、等待支付……整套流程下来，至少需要切换三四个应用，耗时数分钟。

而在Galaxy S26上，萨马特只说了一句话：让Gemini帮他处理群聊里的披萨订单。

接下来的场景中，Gemini自动读取群聊内容，分析每个人的偏好，启动外卖应用，导航到对应餐厅，将所有披萨添加到购物车，最后生成订单等待用户确认。整个过程中，用户可以继续使用手机做其他事，也可以随时查看进度、介入调整或直接终止任务。

“行业内称之为智能体AI（Agentic AI），”萨马特说，“我只把它叫做——把事情搞定（Getting stuff done）。”

根据谷歌官方博客介绍，这项功能首批支持的场景包括出行打车（如Uber）、餐饮外卖（如DoorDash、Grubhub）和生鲜杂货配送。用户长按手机侧边电源键即可唤醒Gemini，用自然语言下达指令，比如“帮我叫一辆车回家”“重新点一份上次的外卖”“把买菜清单加到购物车”。

背后技术：虚拟窗口、GUI Agent与多步推理

Gemini智能体是如何实现这些能力的？综合谷歌官方博客和外媒报道，其技术方案可归纳为三个核心要素。

第一是“安全虚拟窗口”机制。当用户发出任务指令后，Gemini会在手机上启动一个独立的虚拟环境来运行目标应用，而非直接控制用户的主界面。谷歌在博客中明确表示，Gemini会在“手机上的安全虚拟窗口中运行应用”，这意味着AI的操作被隔离在“沙盒”中，既保证任务流畅执行，又避免AI直接访问用户的整个系统。

第二是多模态视觉理解能力，业内通常称之为“GUI Agent”（图形界面智能体）。Gemini 3具备强大的视觉语言模型能力，能够像人类一样“看懂”应用界面——识别按钮、输入框、菜单等元素，理解其含义，并模拟点击、滑动等操作。这意味着AI无需依赖应用方提前适配API接口，就能在几乎任何App中完成任务。

第三是多步骤推理与规划能力。面对复杂任务，Gemini会先制定执行计划，再逐步完成。以披萨订单为例，AI需要理解语境、从对话中提取结构化信息（谁要什么口味、多少份、送到哪里），规划“打开外卖App→搜索餐厅→添加菜品→确认地址→生成订单”的执行路径，并在执行过程中处理各种意外情况。三星官方发布会回顾文章中提到，“Gemini 3使用多模态推理来创建计划并逐步执行，将你的意图转化为行动。”

在安全性方面，谷歌做了多重考量：任务必须由用户明确发起，AI不会擅自行动；用户可随时查看进度、介入干预或终止；涉及支付等敏感操作时，系统会提示用户手动完成。

谷歌还在Android开发者博客中披露了一套名为“AppFunctions”的底层框架，类似于当下流行的模型上下文协议（MCP）的本地版本。通过AppFunctions，应用开发者可以定义功能接口，让Gemini更精准地调用；同时，谷歌也在开发“UI自动化框架”，让AI能在没有官方适配的应用上通过视觉识别完成任务。

似曾相识：这不就是豆包三个月前做的事？

看到这里，熟悉国内AI动态的读者一定会有强烈的既视感——因为上述能力，豆包手机助手在三个月前就已经展示过了。

2025年12月1日，字节跳动豆包团队发布豆包手机助手技术预览版，搭载于与中兴通讯合作的努比亚M153工程样机。这款售价3499元的手机上线后几乎瞬间售罄，首批约3万台被开发者和科技爱好者抢购一空，二手市场溢价一度高达3000元以上。

从技术路径和产品形态来看，豆包手机助手与Gemini智能体高度一致：

系统级唤醒——豆包支持通过语音、侧边键或豆包Ola Friend耳机直接激活，与Gemini的长按侧键唤醒如出一辙；

AI操作手机——豆包能够跨应用完成订票、购物比价、批量下载文件、多平台物流查询等复杂任务，与Gemini的打车、外卖、购物场景异曲同工；

GUI Agent技术——豆包同样采用视觉理解+模拟点击的方式操作第三方应用，而非依赖预设API；

后台运行——豆包的任务执行同样在后台完成，不抢占用户主界面，用户可随时查看、干预或终止。

看演示，效果上豆包实现的更好。例如，用户可以直接说“帮我给女儿推荐几个礼物放进购物车”，或者直接通过语音对图片下达修图指令，如删除人物、清理杂物等。

北京大学武汉人工智能研究院副院长吕鹏在接受媒体采访时曾评价：“豆包手机助手的工程化水平很高，完成度很好，是未来智能终端的雏形。”

换言之，在“手机智能体”这条赛道上，豆包比谷歌更早迈出了这一步，并以技术预览版的形式率先向市场验证了用户需求和技术可行性。

全球共识：苹果也选择了Gemini

手机AI助手从“对话”走向“代理”，正在成为一场全球性的技术共识。

就在今年1月12日，苹果与谷歌联合宣布了一项重磅合作：苹果将采用谷歌的Gemini大模型来驱动下一代Apple Intelligence功能，包括更加个性化的Siri语音助手。根据彭博社报道，这笔交易价值约为每年10亿美元。苹果此前还评估了OpenAI和Anthropic的技术方案，最终选了谷歌的技术。

苹果CEO蒂姆·库克在公司2026财年第一季度财报电话会上进一步解释了这一合作，称“驱动个性化Siri的，将是与谷歌的合作成果。”虽然苹果尚未披露具体的智能体功能细节，但从其公开愿景来看，未来的Siri将能够理解用户的个人上下文，跨应用完成任务，这与Gemini和豆包的能力方向完全一致。

CNBC的报道指出，这一合作意味着Gemini将成为Android和iOS两大平台的默认AI引擎，覆盖全球绝大多数智能手机用户。

与此同时，三星也在构建多元化的AI助手生态。Galaxy S26同时集成了三套AI引擎：谷歌Gemini负责智能体级别的跨应用任务执行，Perplexity负责联网搜索问答，三星自家的Bixby作为本地设备助手承担基础交互。

无论豆包还是Gemini，安卓还是iOS，全球科技巨头正在用行动证明：手机智能体是AI应用落地的关键战场，“代理式操作”将成为下一代手机助手的标配能力。

赛道已热，先行者何时再出发？

随着谷歌、苹果相继入场，“手机智能体”赛道的热度已被彻底点燃。

萨马特在发布会上强调了这项能力的商业价值：“后台任务执行减少了应用切换，降低了手动协调工作，保证了工作流程的顺畅进行，同时又不会剥夺用户的可见性或控制权。”对于企业用户而言，这意味着显著的效率提升空间。

根据美国权威科技媒体The Verge报道，萨马特也表示这是将安卓从单纯的操作系统转变为“智能系统”征程中的一步。“这项技术正在发展，而开发者社区面临的问题是如何拥抱它。”

IDC预计，2026年中国新一代AI手机出货量将达到1.47亿台，同比增长31.6%，占据整体市场的53%。这片蓝海足够广阔，而“智能体”能力正在成为决定AI手机含金量的关键指标。

三星方面宣布，Gemini智能体功能将以Beta预览版形式于3月11日随Galaxy S26系列发售向用户开放，首发市场为美国和韩国，首批支持设备还包括谷歌Pixel 10系列。三星表示，其Galaxy AI已覆盖全球4亿台设备，预计今年搭载Gemini的设备数量将翻倍至8亿台。

自去年12月发布技术预览版以来，豆包手机助手至今尚未公布任何正式版或新产品的消息。在谷歌、苹果高调推进之际，这位技术上的先行者显得相对低调。

谷歌的“豆包手机”来了，但真正的豆包，下一步会怎么走？

市场正在等待答案。

来源|观察者网

谷歌的“豆包手机”来了？

Published by

风君子

最新文章

标签

书签