开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品

世界模型,正在迎来一次技术大突破。

本月初,Google DeepMind 发布的 Genie 3,因为效果惊艳,关注度直接超越了 OpenAI 同日发布的 GPT-5。

Genie 3 实现了实时互动、高度一致化的生成,直接从「游戏画面」迈入「真实世界」的程度,它能维持数分钟的生成一致性,更重要的是还能做到实时响应。

Genie 3 实现的效果。

Genie 3 实现的效果。

AI 领域里,技术发展的速度总是很快,没过两个星期,开源的实时世界模型就已经出现。

这款国产开源的新模型能把复杂的建筑和地形,玻璃的反光都模拟出真实感,符合物理逻辑。

开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品

或是模拟出《侠盗猎车手》(GTA)的大地图,让你可以在其中自由探索。

开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品

如果你上传一个神庙逃亡游戏的截图,就可以在这个世界模型里面开一局,AI 脑补出来的画面会无限地向前延伸。

开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品

它就是昆仑万维发布的交互世界模型「Matrix-Game 2.0」,它的参数量仅有 1.8B,能跑在单块 GPU 上,生成的虚拟环境帧率能达到 25FPS,我们在其中可以用键盘 WASD 按键进行实时的自由移动和视角控制,实现持续时长达分钟级的互动。

最重要的是,它还是完全开源的(有权重 + 代码库),任何人都可以免费使用和修改,还可以自己上传图片进行体验

项目链接:https://matrix-game-v2.github.io/

GitHub 链接:https://github.com/SkyworkAI/Matrix-Game

HuggingFace:https://huggingface.co/Skywork/Matrix-Game-2.0

Matrix-Game 2.0 成为了业内首个在通用场景上实现实时长序列、交互式生成的世界模型开源方案,相比过去的开源模型有了质的飞跃。它也成为了在外网引发关注的又一个国内开源模型。

开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品

有人已经在说「这是开源版本的 Genie 3」了。它的效果究竟如何,我们第一时间进行了实测。

一手实测

丢张图即可走进实时生成的虚拟世界

世界模型一直面临诸多挑战,尤其是在处理复杂环境、实时交互和高度动态变化的情况下。传统的世界模型通常依赖大量高质量数据,且在缺乏预设情境时难以进行准确推理和反应。同时,这类模型在生成和更新时需要消耗庞大的计算资源,导致实时反馈效率受限,从而难以真正落地应用。

昆仑万维推出的 Matrix-Game 2.0 为这一领域带来了新突破。这款交互式世界模型结合了高度自由的操作与实时生成的特点,提供了一种独特的玩法体验。

我们只需上传一张静态图片,模型便会基于该图像加载并生成一个虚拟世界。玩家可以通过方向键或 WASD 键控制人物在虚拟世界中的移动,且每一次人物的移动都会实时影响环境,并生成新的视频内容

例如,我们丢给它一张 3A 大作《荒野大镖客》的游戏画面,并控制方向和视角切换,模型最终生成的视频展示了非常细腻的自然景观。

开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品

从山上俯瞰,一条清澈的河流蜿蜒流淌,看起来,Matrix-Game 2.0 不仅能够理解海拔的高度差异,还能够模拟出流水的动态效果,这种精细的渲染无疑增加了虚拟世界的真实感与沉浸感。

再以经典的《CS:GO》地图 De_Dust2 为例,模型不仅加载了现有场景,还展现出强大的推理和补充能力。它能够基于图像信息自然拓展额外视角和细节,确保生成视频在场景一致性时序连贯性上的高度可靠。

图片

对于《我的世界》这种像素画风的游戏场景,Matrix-Game 2.0 同样表现出了极高的创造力。通过将静态元素转化为动态场景,模型生成了一段如同无人机航拍的视角视频,展现了两侧山脉轮廓梯田的层次、高大的树木,以及河流中的倒影。

开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品

最近,《战地 6》在全球范围内引起了广泛关注,预购开启后短时间内登上 PS5 及 Steam 多个国家的畅销榜,并在 Beta 公测期间以 52 万 Steam 同时在线人数打破记录

我们利用 Matrix-Game 2.0 复刻了这款尚未发售的 3A 游戏精细地图,每次角色移动和视角切换都会实时触发新的画面生成。高帧率和物理一致性保证了操作与画面的紧密结合,充分展现了其在高复杂度交互场景中的潜力。

图片

Matrix-Game 2.0 的能力不仅局限于游戏场景,在现实世界模拟中,它能快速响应用户的视角与移动变化,生成符合物理规律的自然画面。

例如,它成功复现了自行车骑行的第一视角:柏油马路笔直延伸,两旁的行道树不断后撤,画面细节丰富、动态感强,每一帧都精准模拟了现实骑行的空间感与真实感。

开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品

前段时间,Google DeepMind 研究科学家 Aleksander Holynski 使用谷歌 Genie3,「走」进 1978 年的名画苏格拉底之死》,吸引了不少网友围观

这次我们也来个「名画漫游」,让 Matrix-Game 2.0 生成一段梵高《星空》的视频,可以自定义不同角度观察画作,感受其构图、色彩氛围的变化。

图片

同样,我们还通过模型生成了宫崎骏风格的乡间小道场景,随着方向键的切换,生成的画面景色也随之变化,脑补出的画面毫无违和感,甚至连树影都模拟出来了。

图片

经过一系列测试,我们认为 Matrix-Game 2.0 的技术确实具备巨大的潜力。作为一个开源项目,它已经能够实现高度真实的虚拟世界生成和实时交互,为游戏开发者和玩家提供全新的可能性。当然,它也有不少可以提升的空间,比如视觉保真度并不总是能与主流游戏工作室的水平相媲美,而且复杂的交互有时对 AI 来说也难以完美处理。

不过这是一个好的开始,Matrix-Game 2.0 让我们看到,虚拟世界与现实交互的边界正在被逐步打破,下一代游戏和智能体或许就将以此为基石。

从数据生成到模型架构

核心技术全面突破

在上周开源模型的同时,昆仑万维同时放出了 Matrix-Game 2.0 的技术报告,我们可以在其中看到不少技术细节。

技术报告链接:https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf

最近一段时间,基于扩散模型的方法让我们看到了交互式视频生成的潜力。但是,现有的交互式世界模型依赖于双向注意力机制和冗长的推理步骤,严重限制了实时性能,难以模拟现实世界的动态。

为解决这个问题,昆仑万维提出了一种全新的视觉驱动交互世界建模方案,彻底摆脱了此前依赖语言提示的生成模式,专注于通过视觉理解和物理规律学习来构建虚拟世界。

在 Matrix-Game 2.0 上,研究人员通过少步骤自回归扩散算法实时生成长视频,引入了一个专为实时模拟和交互设计的高效框架,同时应对解决了效率可控性的挑战。

Matrix-Game 2.0 模型由三个关键组件组成:

适用于虚幻引擎和 GTA5 环境的可扩展数据生产流水线,可有效生成海量(约 1200 小时)交互式视频数据;

动作注入模块,支持帧级鼠标和键盘输入交互;

基于自回归扩散模型的少步骤蒸馏,用于实时流式视频生成。

基于以上架构和训练机制,Matrix -Game 2.0 能够在单块英伟达 H100 GPU 上以 25 FPS 的速度跨不同场景生成高质量的分钟级视频。

在模型的构建过程中,首先昆仑万维设计并实现了全面的数据生产管线,以支持交互式视频生成模型的大规模训练,克服精准匹配键盘控制与画面、完善动态交互这两大挑战。其开发的多样化数据集生产流程包含从著名游戏引擎虚幻引擎和游戏 GTA5 的模拟环境中获取静态与动态场景。

为了获取更多交互式动态场景,工程人员在 GTA5 环境中开发了一个综合记录系统,使用 Script Hook V 扩展工具,使视觉内容与相应的用户动作同步捕捉。这个数据整理流程收集了超过 120 万个视频片段,它们的整体准确率超过 99%。

在 Matrix-Game 2.0 的基础模型框架上,昆仑万维也进行了一系列独特的设计。模型源自 WanX,通过移除文本分支并添加动作模块,该模型仅根据视觉内容和对应的动作来预测下一帧的画面。

系统首先对原始视频数据进行时空压缩,图像输入通过 3D Causal VAE 和 CLIP 图像编码器作为条件输入进行处理。在用户提供的输入动作的引导下,DiT 模型(Diffusion Transformer)生成一个视觉隐空间序列,随后通过 3D VAE 解码器将其解码为视频。

简单来说,这种机制避免了语言先验可能带来的语义偏置,转而专注于图像的空间结构和动态模式,可以更准确地理解和生成虚拟世界。

为了让人们可以与生成内容互动,Matrix-Game 2.0 系统集成了动作条件控制模块,支持帧级键盘与鼠标交互输入。在其中,连续的鼠标操作会直接与输入的潜在表征相连接,经多层感知机(MLP)层处理后,再通过时序自注意力层进行动态调整。此外,键盘操作通过交叉注意力层对融合特征进行查询,从而实现交互操作的精准可控性。

最后,为了生成更长的视频,减少内容上出现的偏差,昆仑万维开发了一种用于实时长视频合成的自回归扩散生成机制,通过 Self-Forcing 把双向基础模型转化为高效的自回归变体,让每个帧基于先前自生成的输出而非真实值进行条件化处理,从而解决了暴露偏差,显著减少了此前世界模型中常见的误差累积问题。

自驱动因果扩散模型训练流程示意图。通过自条件生成机制,蒸馏过程将学生模型的分布与教师模型进行对齐。该方法在保持生成质量的同时有效抑制了误差累积。

实验效果如何?在与 Oasis 世界模型的对比上,Matrix-Game 2.0 在长时间互动视频生成方面效果更好:Oasis 会在生成几十帧之后效果明显下降,Matrix-Game 2.0 则能够一直保持稳定

定量比较的话,Matrix-Game 2.0 在图像质量、时间一致性、控制准确性等方面保持领先,同时也保证了灵活性和效率不降低。

可见,昆仑万维的新方法可以有效减少当初 Oasis 模型「转一圈画风完全变了」的尴尬情况,这对于面向实际落地的应用来说非常重要。

昆仑万维

持续发力开源社区

Matrix-Game 2.0 并不是昆仑万维第一次展示实力。在开源领域,最近这家公司的名字越来越频繁地出现。

仅在今年,昆仑万维就开源奖励模型 Skywork-Reward-V2,无限时长电影生成模型 SkyReels-V2,多模态推理模型 Skywork-R1V,面向数学、代码等领域的文本推理模型 Skywork-OR1,以及软件工程自主代码智能体基座模型 Skywork-SWE 等等多款模型。

开源版Genie 3世界模型来了:实时+长时间交互,单卡可跑,国内公司出品

在 HuggingFace 上,昆仑万维的模型热度很高。

上周连续五天的技术发布活动,昆仑万维还陆续发布了 SkyReels-A3 视频生成模型、世界模型 Matrix-Game 2.0 与 Matrix-3D、Skywork UniPic 2.0 多模态训练推理框架,Skywork Deep Research Agent v2、Mureka V7.5 等等一系列 AI 模型、工具。这一套覆盖图像、音频、视频、音乐、智能体的组合拳,向世人展示了该公司持续深耕技术的成果。

这些 AI 领域的新技术,有很多都实现了业界领先的水平,不仅让昆仑万维在技术落地上不断扩大版图,也通过不断的开源反哺了研究社区。

当然,这样持续不懈的前沿技术研发也在引发质变,开启新的方向。

世界模型

进入实用阶段

在 DeepMind 的 Genie 3 发布后,很多人发现,世界模型已经不再是个未来式,而是正在展现出很大应用潜力。DeepMind 自己就表示,希望能把世界模型生成的环境直接对齐到机械臂和具身智能的训练上。

在很多情况下,具身智能的基础模型面临着数据匮乏、采集难、难以泛化等问题,世界模型生成的虚拟环境,可以成为 AI 完美的训练场。世界模型会在学习物理规律、事物之间交互规则等知识后进行预测和规划。在其中进行探索的机器人、自动驾驶汽车依据这些规则进行交互,就可以训练出更多的智能。

可见不仅在游戏、虚拟人等娱乐场景中,在发展现实世界生产力的「物理 AI」方面,世界模型也可以发挥作用。

在 Matrix-Game 2.0 等开源技术出现之后,世界模型实用化的脚步还会加快。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平