6小时手搓手机Agentic操作系统,拿下OpenAI语音黑客松冠军

编译|毕伟豪

编辑漠影

东西6月2日消息,OpenAI语音黑客之夜(OpenAI Voice Hack Night)在今天公布了最终获胜者一个语音优先的手机Agentic操作系统拿下了冠军

开发者所提供的演示手机原型中,没有APP,一片漆黑,只有一个像星环一样小图标在手机中央,等待着用户下达指令

开发者独自上台,举着部普通智能手机,对着它说话:

“帮我找下周旧金山慕尼黑航班。”“我今天有什么安排?”“取消凌晨一点半的会,去不了。”

手机几乎立刻反应,一个发光的蓝色球体界面弹出航班卡片、日历视图天气简报等需要的页面。他说取消会议,会议消失,他改问飞里约的航班,新选项立刻出现,全程不用点屏幕,没打开过任何App

这是Isa Usmanov在6个小时内和Codex一起创造的,和现有的智能手机语音控制功能不同,Isa Usmanov对手机操作系统进行了彻底的重新设计

他抛开了所有既定的应用,让AI去根据用户的语音提示,进行推理、行动,生成实时的交互页面,其基础任务由跑在手机上的本地模型实时生成,重型任务则是调用ChatGPT来处理。

市面上能语音控制的手机太多了,调个闹钟查个天气问题,但骨子里还是你说话,它识别关键词,替你在App里点按钮底层逻辑是App,语音只是遥控器

Isa Usmanov直接扔掉了App这套东西,用户不需要知道航班在哪查、日历怎么调、新闻从哪抓,只需要说出意图AI理解意图,然后现场生成用户需要的界面

工具链很简单,这个项目完全是由Codex构建的,OpenAI最新的实时语音模型提供了交互能力的支持。

这里有意思是,开发这件事已经悄然发生了变化,以前你得纠结航班搜索API怎么调、数据怎么格式化、界面怎么布局,现在你只需要告诉AI“我要查航班”,剩下它包了。

这个原型很容易让人想起斯派克·琼斯2013年的电影《她》,男主角和AI操作系统萨曼莎建立关系萨曼莎不光回答问题,还预测需求、管任务、用近乎人性方式互动。

OpenAI首席执行官Sam Altman曾多次表示《她》是自己最喜欢的AI电影,并经常引用其来展望人类最终如何与AI交互。

OpenAI一直在做语音方向的尝试,不论是ChatGPT的高级语音模式,还是GPT-Realtime-2等语音模型,亦或者是前段时间被曝出的AI智能体手机事件,都表明Isa Usmanov的这个原型,和OpenAI的愿景不谋而合

当然它还是个原型,航班数据靠API并不稳定,动态界面在复杂场景没有测试,在开发者的演示过程中还出现了一些Bug,比如反应缓慢、指令接收不清楚、执行不到位等。

但这个项目表明,大部分技术基础已经存在,随着实时语音模型的不断改进,语音原生智能体驱动的操作系统或许将不再是电影中的情节,而是行业发展的合理下一步。

来源:eyerys、Cerebral Valley、OpenAI Developers

Published by

风君子

独自遨游何稽首 揭天掀地慰生平