文 观察者网 孙珷
当地时间2月25日,三星在旧金山举行Galaxy Unpacked 2026发布会,正式推出Galaxy S26系列旗舰手机。但真正引爆科技圈讨论的,并非手机硬件本身,而是谷歌安卓生态系统总裁萨米尔·萨马特(Sameer Samat)登台展示的一项新功能——Gemini智能体,能够在后台自动完成订餐、叫车、购物等多步骤复杂任务。
就在三个月前的2025年12月1日,字节跳动豆包团队发布了豆包手机助手技术预览版,展示了几乎完全一致的能力:系统级唤醒、跨应用自动操作、后台任务执行。搭载该助手的努比亚M153工程样机首批3万台一夜售罄,在科技圈引发现象级关注。
如今,全球科技巨头谷歌携手三星推出同样能力的产品,这是否意味着,跟随这一创新,谷歌的“豆包手机”也来了?

智能体AI:手机助手帮你办事
“安卓正从传统操作系统演变为一个真正理解并为你服务的智能系统。”萨马特在发布会上如此定义这次升级的意义。他将这项能力称为Gemini的“下一次进化”,让手机助手从“回答问题”升级为“帮你办事”。
在现场演示环节,萨马特展示了一个贴近日常的场景:一个家庭群聊里,成员们七嘴八舌地讨论晚餐点什么披萨。按照传统方式,用户需要自己阅读消息、记住每个人的口味偏好、打开外卖App、逐一添加菜品、核对地址、等待支付……整套流程下来,至少需要切换三四个应用,耗时数分钟。
而在Galaxy S26上,萨马特只说了一句话:让Gemini帮他处理群聊里的披萨订单。
接下来的场景中,Gemini自动读取群聊内容,分析每个人的偏好,启动外卖应用,导航到对应餐厅,将所有披萨添加到购物车,最后生成订单等待用户确认。整个过程中,用户可以继续使用手机做其他事,也可以随时查看进度、介入调整或直接终止任务。
“行业内称之为智能体AI(Agentic AI),”萨马特说,“我只把它叫做——把事情搞定(Getting stuff done)。”
根据谷歌官方博客介绍,这项功能首批支持的场景包括出行打车(如Uber)、餐饮外卖(如DoorDash、Grubhub)和生鲜杂货配送。用户长按手机侧边电源键即可唤醒Gemini,用自然语言下达指令,比如“帮我叫一辆车回家”“重新点一份上次的外卖”“把买菜清单加到购物车”。

背后技术:虚拟窗口、GUI Agent与多步推理
Gemini智能体是如何实现这些能力的?综合谷歌官方博客和外媒报道,其技术方案可归纳为三个核心要素。
第一是“安全虚拟窗口”机制。当用户发出任务指令后,Gemini会在手机上启动一个独立的虚拟环境来运行目标应用,而非直接控制用户的主界面。谷歌在博客中明确表示,Gemini会在“手机上的安全虚拟窗口中运行应用”,这意味着AI的操作被隔离在“沙盒”中,既保证任务流畅执行,又避免AI直接访问用户的整个系统。
第二是多模态视觉理解能力,业内通常称之为“GUI Agent”(图形界面智能体)。Gemini 3具备强大的视觉语言模型能力,能够像人类一样“看懂”应用界面——识别按钮、输入框、菜单等元素,理解其含义,并模拟点击、滑动等操作。这意味着AI无需依赖应用方提前适配API接口,就能在几乎任何App中完成任务。
第三是多步骤推理与规划能力。面对复杂任务,Gemini会先制定执行计划,再逐步完成。以披萨订单为例,AI需要理解语境、从对话中提取结构化信息(谁要什么口味、多少份、送到哪里),规划“打开外卖App→搜索餐厅→添加菜品→确认地址→生成订单”的执行路径,并在执行过程中处理各种意外情况。三星官方发布会回顾文章中提到,“Gemini 3使用多模态推理来创建计划并逐步执行,将你的意图转化为行动。”
在安全性方面,谷歌做了多重考量:任务必须由用户明确发起,AI不会擅自行动;用户可随时查看进度、介入干预或终止;涉及支付等敏感操作时,系统会提示用户手动完成。
谷歌还在Android开发者博客中披露了一套名为“AppFunctions”的底层框架,类似于当下流行的模型上下文协议(MCP)的本地版本。通过AppFunctions,应用开发者可以定义功能接口,让Gemini更精准地调用;同时,谷歌也在开发“UI自动化框架”,让AI能在没有官方适配的应用上通过视觉识别完成任务。

似曾相识:这不就是豆包三个月前做的事?
看到这里,熟悉国内AI动态的读者一定会有强烈的既视感——因为上述能力,豆包手机助手在三个月前就已经展示过了。
2025年12月1日,字节跳动豆包团队发布豆包手机助手技术预览版,搭载于与中兴通讯合作的努比亚M153工程样机。这款售价3499元的手机上线后几乎瞬间售罄,首批约3万台被开发者和科技爱好者抢购一空,二手市场溢价一度高达3000元以上。
从技术路径和产品形态来看,豆包手机助手与Gemini智能体高度一致:
系统级唤醒——豆包支持通过语音、侧边键或豆包Ola Friend耳机直接激活,与Gemini的长按侧键唤醒如出一辙;
AI操作手机——豆包能够跨应用完成订票、购物比价、批量下载文件、多平台物流查询等复杂任务,与Gemini的打车、外卖、购物场景异曲同工;
GUI Agent技术——豆包同样采用视觉理解+模拟点击的方式操作第三方应用,而非依赖预设API;
后台运行——豆包的任务执行同样在后台完成,不抢占用户主界面,用户可随时查看、干预或终止。
看演示,效果上豆包实现的更好。例如,用户可以直接说“帮我给女儿推荐几个礼物放进购物车”,或者直接通过语音对图片下达修图指令,如删除人物、清理杂物等。
北京大学武汉人工智能研究院副院长吕鹏在接受媒体采访时曾评价:“豆包手机助手的工程化水平很高,完成度很好,是未来智能终端的雏形。”
换言之,在“手机智能体”这条赛道上,豆包比谷歌更早迈出了这一步,并以技术预览版的形式率先向市场验证了用户需求和技术可行性。
手机AI助手从“对话”走向“代理”,正在成为一场全球性的技术共识。
就在今年1月12日,苹果与谷歌联合宣布了一项重磅合作:苹果将采用谷歌的Gemini大模型来驱动下一代Apple Intelligence功能,包括更加个性化的Siri语音助手。根据彭博社报道,这笔交易价值约为每年10亿美元。苹果此前还评估了OpenAI和Anthropic的技术方案,最终选了谷歌的技术。
苹果CEO蒂姆·库克在公司2026财年第一季度财报电话会上进一步解释了这一合作,称“驱动个性化Siri的,将是与谷歌的合作成果。”虽然苹果尚未披露具体的智能体功能细节,但从其公开愿景来看,未来的Siri将能够理解用户的个人上下文,跨应用完成任务,这与Gemini和豆包的能力方向完全一致。
CNBC的报道指出,这一合作意味着Gemini将成为Android和iOS两大平台的默认AI引擎,覆盖全球绝大多数智能手机用户。
与此同时,三星也在构建多元化的AI助手生态。Galaxy S26同时集成了三套AI引擎:谷歌Gemini负责智能体级别的跨应用任务执行,Perplexity负责联网搜索问答,三星自家的Bixby作为本地设备助手承担基础交互。
无论豆包还是Gemini,安卓还是iOS,全球科技巨头正在用行动证明:手机智能体是AI应用落地的关键战场,“代理式操作”将成为下一代手机助手的标配能力。
赛道已热,先行者何时再出发?
随着谷歌、苹果相继入场,“手机智能体”赛道的热度已被彻底点燃。
萨马特在发布会上强调了这项能力的商业价值:“后台任务执行减少了应用切换,降低了手动协调工作,保证了工作流程的顺畅进行,同时又不会剥夺用户的可见性或控制权。”对于企业用户而言,这意味着显著的效率提升空间。
根据美国权威科技媒体The Verge报道,萨马特也表示这是将安卓从单纯的操作系统转变为“智能系统”征程中的一步。“这项技术正在发展,而开发者社区面临的问题是如何拥抱它。”
IDC预计,2026年中国新一代AI手机出货量将达到1.47亿台,同比增长31.6%,占据整体市场的53%。这片蓝海足够广阔,而“智能体”能力正在成为决定AI手机含金量的关键指标。
三星方面宣布,Gemini智能体功能将以Beta预览版形式于3月11日随Galaxy S26系列发售向用户开放,首发市场为美国和韩国,首批支持设备还包括谷歌Pixel 10系列。三星表示,其Galaxy AI已覆盖全球4亿台设备,预计今年搭载Gemini的设备数量将翻倍至8亿台。
自去年12月发布技术预览版以来,豆包手机助手至今尚未公布任何正式版或新产品的消息。在谷歌、苹果高调推进之际,这位技术上的先行者显得相对低调。
谷歌的“豆包手机”来了,但真正的豆包,下一步会怎么走?
市场正在等待答案。
来源|观察者网

