视觉 – 第 70 页 – 冯金伟博客园

开源版Genie 3世界模型来了：实时+长时间交互，单卡可跑，国内公司出品

世界模型，正在迎来一次技术大突破。本月初，Google DeepMind 发布的 Genie 3，因为效果惊艳，关注度直接超越了 OpenAI 同日发布的 GPT-5。 Genie 3 实现了实时互 … 继续阅读开源版Genie 3世界模型来了：实时+长时间交互，单卡可跑，国内公司出品

每经AI快讯，8月19日，通义千问宣布，推出Qwen-Image-Edit，Qwen-Image的图像编辑版本。Qwen-Image-Edit基于20B的Qwen-Image模型进⼀步训练，将Qwen … 继续阅读阿里通义千问：推出图像编辑模型Qwen-Image-Edit

凤凰网科技讯 8月19日，通义千问Qwen宣布推出Qwen-Image-Edit，Qwen-Image的图像编辑版本。 Qwen-Image-Edit基于20B的Qwen-Image模型进⼀步训练，成 … 继续阅读通义千问Qwen-Image-Edit发布：兼具语义与外观双重编辑能力

快科技8月17日消息，在AI市场上NVIDIA的优势已经到了碾压众生的地步，但AMD也没有停止追赶，上月发布了一款32GB显存的Radeon AI PRO R9700显卡，很有看点。 AMD表示，这款 … 继续阅读 5倍RTX 5080性能 AMD AI神卡R9700被曝不到9000元

作者 | 李水青编辑 | 云鹏智东西8月15日消息，今日晚间，阿里宣布推出首个开源多模态深度研究智能体（Deep Research Agent）——WebWatcher。市面上的深度研究工具层出 … 继续阅读刚刚！阿里推出首个开源多模态深度研究Agent，四大VQA基准测试赶超GPT-4o

IT之家 8 月 15 日消息，快手旗下的可灵 2.1 模型今天开启全新首尾帧功能内测。据官方介绍，本次升级带来了显著的效果提升：更加流畅的“电影级”运镜控制、丝滑自然的转场效果以及精准的复杂语义理解 … 继续阅读快手可灵2.1视频生成模型全新首尾帧功能开启内测，具备“电影级”效果

今天凌晨，全球社交、科技巨头Meta开源了，最新视觉大模型DINOv3。 DINOv3的主要创新使用了自我监督学习，无需标注数据就能大幅度降低训练所需要的时间和算力资源。并且与前一代相比，DINOv3 … 继续阅读 Meta刚刚开源DINOv3，横扫60+任务，无标注封神

你大概率见过这样一幕——一台航拍无人机，身上绑着一部全景相机。早在 2022 年，影石就嗅到了这股创意的风，推出了适配大疆 Air2 系列的全景相机套件「瞳 Sphere」，让无人机玩家第一次尝到了 … 继续阅读戴上眼镜，起飞！影翎 A1 全景无人机首发评测

杰西卡发自副驾寺智能车参考 | 公众号 AI4Auto FSD又进化到哪一步了？特斯拉在社交平台上，最新发布了有史以来耗时最长的FSD演示视频：从旧金山到洛杉矶，全程7小时、580公里，行驶 … 继续阅读 7小时0接管！特斯拉发布史上最长FSD演示，马斯克承诺升级自动充电，开车还能像打游戏

凤凰网科技讯 8月14日，智元机器人正式发布行业首个机器人世界模型开源平台——Genie Envisioner（简称GE）。该平台突破传统“数据—训练— 评估”割裂的流水线模式，宣称首次将未来帧预测、 … 继续阅读智元机器人发布行业首个机器人世界模型开源平台实测可完成做三明治、倒茶等任务