每秒狂吐1000个token！谷歌开源扩散模型新作，4090单卡可跑

智东西

编译 | 刘煜

编辑 | 陈骏达

智东西6月11日消息，今天凌晨，谷歌DeepMind推出一款探索文本扩散（text diffusion）技术的开放实验模型DiffusionGemma。这款模型基于Apache 2.0许可协议发布，是260亿参数的混合专家（MoE）模型，能够一次性生成整段文本，在GPU上文本生成速度最高可达自回归LLM的4倍。

每秒狂吐1000个token！谷歌开源扩散模型新作，4090单卡可跑

▲DeepMind官宣（图源：X）

DeepMind还联合英伟达完成了全硬件栈优化，DiffusionGemma可适配消费级硬件（已针对GeForce RTX 5090、4090显卡完成量化适配），同时在企业级设备上也能发挥性能。

无论是搭载Hopper架构、Blackwell架构并支持NVFP4内核的设备，还是面向本地桌面部署的英伟达DGX Spark、DGX Station，以及面向AI专业人员的RTX PRO系列产品，都能流畅运行DiffusionGemma。

值得一提的是，该模型原生支持NVFP4技术，能够在几乎不损失生成精度的前提下，大幅提升计算吞吐量，进一步提速整体运行效率。

模型权重：

DiffusionGemma 26B 指令微调版（A4B‑it）：

https://huggingface.co/google/diffusiongemma-26B-A4B-it

框架地址：

Hugging Face Transformers：

https://github.com/huggingface/transformers

一、DiffusionGemma速度占优，生成质量不及Gemma 4

DeepMind称，尽管自回归模型的生成质量相对较高，但如果用户想要一边写、一边实时补全、或者来回修改，模型可能要重新生成一整段，响应速度不够快。同时，不少开发实时交互式AI应用的开发者，也常常会面临本地推理带来的延迟问题。

自回归语言模型的工作原理类似打字机，从左至右逐一生成token。在云端场景中，服务端可批量处理数千条用户请求、分摊硬件负载，因此该模式具备较高效率。

但当模型在本地为单一用户运行时，这种逐词生成的方式会造成专用GPU或TPU利用率低下，硬件大部分时间都处于等待下一个“输入字符”的空闲状态。

不少研发团队在思考如何从模型架构层面提高推理速度，而扩散模型架构被认为是颇有潜力的一个方向。业界对其进行了长期研究，但要把这项技术用在大模型上一直困难重重。

具体而言，扩散模型的计算成本高，长文本的生成质量也难以保证，其对离得近的信息敏感，对远距离信息容易忽略，以致对长上下文理解存在局限，要在不牺牲质量、不烧掉太多算力的前提下把它做大、做稳定，长期以来缺乏有效的工程方案。

DeepMind此次推出DiffusionGemma正是为了改变了这一现状，它的核心思路是重新设计模型调用硬件的方式。

DiffusionGemma依托Gemma 4系列模型的单位参数性能，结合Gemini Diffusion相关研究打造，同时搭载全新的diffusion head（扩散输出头），能突破传统自回归LLM逐个token串行处理的模式，以最大化提升文本生成速度。

每秒狂吐1000个token！谷歌开源扩散模型新作，4090单卡可跑

DiffusionGemma没有进行串行逐词预测，而是一次性生成包含256个token的完整文本段落。其一次性向处理器分配更大的计算任务，能够让硬件算力得到充分利用。这一特性在行内编辑、代码补全、氨基酸序列、数学图谱等非线性应用场景中有一定优势。

这款模型推理模式由此从单台串行工作的打字机，升级为可一次性输出整段文本的大型印刷设备。

不止如此，该模型推理阶段仅激活38亿参数，经过量化处理后，可流畅运行在高端消费级专用显卡18GB显存的硬件限制内。

DiffusionGemma的文本扩散技术，其原理与AI图像生成模型相似。图像模型从随机噪点开始，迭代优化最终生成清晰画面，DiffusionGemma则将这套逻辑应用于文本生成中。

首先，DiffusionGemma会先生成一组随机的占位token，作为文本生成的初始基底。随后该模型会进行多轮迭代计算，先锁定已经生成准确的token内容，再将这些有效信息作为上下文依据，持续修正和优化剩余文本。

如下所示，经过层层打磨后，该模型生成的整体内容不断收敛优化，最终形成通顺、完整、可直接使用的文本结果。

每秒狂吐1000个token！谷歌开源扩散模型新作，4090单卡可跑

此外，在生成文本的全过程中，该模型能够同步处理整段内容，由此衍生出新的实用能力，比如精准补全复杂的Markdown格式，或是近乎实时地生成并渲染代码等。

二、能生成3D SVG图形，支持开发者微调优化

DiffusionGemma能直击本地推理带来延迟问题这一痛点，不过它也并非十全十美。以下是该款模型的功能特点：

首先是极速推理。DiffusionGemma将解码瓶颈从内存带宽转移至计算单元，在专用GPU上token输出速度实现提升。例如，其在单张英伟达H100的生成速度可达每秒1000个token以上，在GeForce RTX 5090的生成速度可达每秒700个token以上。

第二点则是智能自纠错。该模型会迭代优化输出内容，可一次性对整段文本进行校验，实时修正错误。

不止如此，该模型不局限于纯文本创作，还能理解文字语义、输出图形相关内容，可根据文字描述生成3D SVG图形。这一生成过程如下图所示，Hugging Face制作了演示样例，直观呈现了DiffusionGemma根据文字描述生成图形的全过程。

每秒狂吐1000个token！谷歌开源扩散模型新作，4090单卡可跑

同时，开发者还可通过微调进一步提升DiffusionGemma在特定任务中的表现。

如下图所示，大模型高效微调开源框架Unsloth对DiffusionGemma进行数独任务微调，数独任务中每个token都与后续token存在关联，自回归模型处理该任务难度较大，而DiffusionGemma的双向注意力机制则能降低处理难度。

每秒狂吐1000个token！谷歌开源扩散模型新作，4090单卡可跑

DiffusionGemma面向追求高速、本地实时交互的研究人员与开发者设计，适用于各类对速度敏感的交互式本地工作场景，例如行内编辑、内容快速迭代以及非线性文本结构生成等。

不过，DiffusionGemma主打的提速优势主要体现在本地部署及低并发推理场景。这种“快”不是所有场景都试用，尤其不适合高并发云端服务。

在高查询量（QPS）的云端服务场景中，自回归模型可充分榨取计算资源，DiffusionGemma的并行解码优势会不断弱化，还可能推高服务成本。

综合来看，DiffusionGemma的吞吐性能优势，在单张加速卡、中小批次任务的场景下最为突出。也就是说，个人开发者、小团队在本地跑实验的场景，使用DiffusionGemma能最大程度发挥其性能优势。

如下图所示，由于DiffusionGemma优先兼顾生成速度与并行输出架构，单请求生成token的速度约为Gemma 4的3.65倍，但整体输出质量不及Gemma 4。对于追求极致生成质量的应用场景，DeepMind建议用户继续使用标准版Gemma 4。

每秒狂吐1000个token！谷歌开源扩散模型新作，4090单卡可跑

结语：聚焦端侧提速需求，探索文本生成新路径

DiffusionGemma的推出，并不意味着文本扩散模型将立即取代当前主流的自回归大模型。至少在生成质量、云端高并发部署效率等方面，自回归架构依然占据主导地位。

但DiffusionGemma展示了另一种可能。在本地推理、实时交互和低并发场景下，通过改变文本生成方式，该模型可以突破传统逐token解码带来的速度限制。

随着端侧AI和本地部署需求持续增长，如何在生成质量、推理速度与硬件成本之间取得平衡，正成为大模型发展的重要方向。DiffusionGemma更像是一次针对这一问题的前沿探索，其最终价值仍有待开发者社区和实际应用场景进一步验证。

来源：谷歌官网

每秒狂吐1000个token！谷歌开源扩散模型新作，4090单卡可跑

Published by

风君子

最新文章

标签

书签