一键照片手办化:谷歌Gemini上线“Nano Banana”文生图模型

IT之家 9 月 6 日消息,继 ChatGPT 掀起“吉卜力、像素风”AI 生图热潮后,近期海外出现利用 Gemini 2.5 Flash Image(代号 Nano Banana)AI 模型“照片 … Continue reading 一键照片手办化:谷歌Gemini上线“Nano Banana”文生图模型

海外Tier1杀入智驾红海,博世一段式方案即将量产

VLA太远,一段式正热:博世智驾路线的现实主义突围。 作者 | 颐圣 编辑 | 志豪 海外老牌Tier1的一段式端到端辅助驾驶就要来了! 当前,自动驾驶技术正面临路线选择的关键分岔口。 一方面,以VL … Continue reading 海外Tier1杀入智驾红海,博世一段式方案即将量产

腾讯打造《我的世界》神操作 400张截图就能让AI挖矿通关

在大多数人眼中,《我的世界》(Minecraft)只是一款自由度极高的沙盒游戏。 而在香港科技大学(广州)与腾讯联合团队的眼中,它却是一座可以演练通用人工智能的“数字练兵场”。 为了用“小数据办大事” … Continue reading 腾讯打造《我的世界》神操作 400张截图就能让AI挖矿通关

李飞飞的答案:大模型之后,Agent向何处去?

划重点: 1、李飞飞最新论文,为当下火热的 Agent 划定了边界、确立了范式。谷歌、OpenAI 和微软等巨头的最新布局,几乎都遵循了论文给出的能力栈。 2、论文提出了一套完整的认知闭环架构——从感 … Continue reading 李飞飞的答案:大模型之后,Agent向何处去?

多模态通用感知能力超越GPT-5,书生・万象3.5大模型开源

IT之家 9 月 3 日消息,上海人工智能实验室(上海 AI 实验室)今日宣布开源通用多模态大模型书生・万象 3.5(InternVL3.5),其推理能力、部署效率与通用能力全面升级。 InternV … Continue reading 多模态通用感知能力超越GPT-5,书生・万象3.5大模型开源

营收千亿的拼多多,为何只字不提AI

一位知情人士告诉数智前线,拼多多此前都是在复用别人做好的基础设施,在AI上也是这个逻辑。 ‍‍‍‍‍‍&#x200d … Continue reading 营收千亿的拼多多,为何只字不提AI

苹果最新模型,5年前的iPhone能跑

编译 | 程茜 编辑 | 云鹏 智东西9月1日消息,苹果又公布了大模型研发新进展! 8月28日,苹果在arXiv发布新论文,介绍新一代多模态基础模型MobileCLIP2及其背后的多模态强化训练机制, … Continue reading 苹果最新模型,5年前的iPhone能跑

豆包千问DeepSeek,没上苹果先“上车”

最近,车圈和AI企业间再一次传出“牵手”消息,这一次的主角,是特斯拉、字节跳动和深度求索(DeepSeek)。 特斯拉中国官网更新的《特斯拉车机语音助手使用条款》显示,全新上市的特斯拉Model Y … Continue reading 豆包千问DeepSeek,没上苹果先“上车”

又一国产多模态大模型开源,复杂声音一耳朵分辨,多测试SOTA,还能聊哲学

作者 | 王涵 编辑 | 漠影 智东西9月1日消息,今天上午,阶跃星辰正式发布开源端到端语音大模型Step-Audio 2 mini,该模型在通用多模态音频理解等多个国际基准测试集上取得SOTA成绩。 … Continue reading 又一国产多模态大模型开源,复杂声音一耳朵分辨,多测试SOTA,还能聊哲学