世界模型,正在迎来一次技术大突破。 本月初,Google DeepMind 发布的 Genie 3,因为效果惊艳,关注度直接超越了 OpenAI 同日发布的 GPT-5。 Genie 3 实现了实时互 … 继续阅读 开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品
标签: 视觉
阿里通义千问:推出图像编辑模型Qwen-Image-Edit
每经AI快讯,8月19日,通义千问宣布,推出Qwen-Image-Edit,Qwen-Image的图像编辑版本。Qwen-Image-Edit基于20B的Qwen-Image模型进⼀步训练,将Qwen … 继续阅读 阿里通义千问:推出图像编辑模型Qwen-Image-Edit
通义千问Qwen-Image-Edit发布:兼具语义与外观双重编辑能力
凤凰网科技讯 8月19日,通义千问Qwen宣布推出Qwen-Image-Edit,Qwen-Image的图像编辑版本。 Qwen-Image-Edit基于20B的Qwen-Image模型进⼀步训练,成 … 继续阅读 通义千问Qwen-Image-Edit发布:兼具语义与外观双重编辑能力
5倍RTX 5080性能 AMD AI神卡R9700被曝不到9000元
快科技8月17日消息,在AI市场上NVIDIA的优势已经到了碾压众生的地步,但AMD也没有停止追赶,上月发布了一款32GB显存的Radeon AI PRO R9700显卡,很有看点。 AMD表示,这款 … 继续阅读 5倍RTX 5080性能 AMD AI神卡R9700被曝不到9000元
刚刚!阿里推出首个开源多模态深度研究Agent,四大VQA基准测试赶超GPT-4o
作者 | 李水青 编辑 | 云鹏 智东西8月15日消息,今日晚间,阿里宣布推出首个开源多模态深度研究智能体(Deep Research Agent)——WebWatcher。 市面上的深度研究工具层出 … 继续阅读 刚刚!阿里推出首个开源多模态深度研究Agent,四大VQA基准测试赶超GPT-4o
快手可灵2.1视频生成模型全新首尾帧功能开启内测,具备“电影级”效果
IT之家 8 月 15 日消息,快手旗下的可灵 2.1 模型今天开启全新首尾帧功能内测。据官方介绍,本次升级带来了显著的效果提升:更加流畅的“电影级”运镜控制、丝滑自然的转场效果以及精准的复杂语义理解 … 继续阅读 快手可灵2.1视频生成模型全新首尾帧功能开启内测,具备“电影级”效果
Meta刚刚开源DINOv3,横扫60+任务,无标注封神
今天凌晨,全球社交、科技巨头Meta开源了,最新视觉大模型DINOv3。 DINOv3的主要创新使用了自我监督学习,无需标注数据就能大幅度降低训练所需要的时间和算力资源。并且与前一代相比,DINOv3 … 继续阅读 Meta刚刚开源DINOv3,横扫60+任务,无标注封神
戴上眼镜,起飞!影翎 A1 全景无人机首发评测
你大概率见过这样一幕——一台航拍无人机,身上绑着一部全景相机。早在 2022 年,影石就嗅到了这股创意的风,推出了适配大疆 Air2 系列的全景相机套件「瞳 Sphere」,让无人机玩家第一次尝到了 … 继续阅读 戴上眼镜,起飞!影翎 A1 全景无人机首发评测
7小时0接管!特斯拉发布史上最长FSD演示,马斯克承诺升级自动充电,开车还能像打游戏
杰西卡 发自 副驾寺 智能车参考 | 公众号 AI4Auto FSD又进化到哪一步了? 特斯拉在社交平台上,最新发布了有史以来耗时最长的FSD演示视频: 从旧金山到洛杉矶,全程7小时、580公里,行驶 … 继续阅读 7小时0接管!特斯拉发布史上最长FSD演示,马斯克承诺升级自动充电,开车还能像打游戏
智元机器人发布行业首个机器人世界模型开源平台 实测可完成做三明治、倒茶等任务
凤凰网科技讯 8月14日,智元机器人正式发布行业首个机器人世界模型开源平台——Genie Envisioner(简称GE)。该平台突破传统“数据—训练— 评估”割裂的流水线模式,宣称首次将未来帧预测、 … 继续阅读 智元机器人发布行业首个机器人世界模型开源平台 实测可完成做三明治、倒茶等任务

