
智东西
编译 | 刘煜
编辑 | 陈骏达
智东西6月11日消息,今天凌晨,谷歌DeepMind推出一款探索文本扩散(text diffusion)技术的开放实验模型DiffusionGemma。这款模型基于Apache 2.0许可协议发布,是260亿参数的混合专家(MoE)模型,能够一次性生成整段文本,在GPU上文本生成速度最高可达自回归LLM的4倍。

▲DeepMind官宣(图源:X)
DeepMind还联合英伟达完成了全硬件栈优化,DiffusionGemma可适配消费级硬件(已针对GeForce RTX 5090、4090显卡完成量化适配),同时在企业级设备上也能发挥性能。
无论是搭载Hopper架构、Blackwell架构并支持NVFP4内核的设备,还是面向本地桌面部署的英伟达DGX Spark、DGX Station,以及面向AI专业人员的RTX PRO系列产品,都能流畅运行DiffusionGemma。
值得一提的是,该模型原生支持NVFP4技术,能够在几乎不损失生成精度的前提下,大幅提升计算吞吐量,进一步提速整体运行效率。
模型权重:
DiffusionGemma 26B 指令微调版(A4B‑it):
https://huggingface.co/google/diffusiongemma-26B-A4B-it
框架地址:
Hugging Face Transformers:
https://github.com/huggingface/transformers
一、DiffusionGemma速度占优,生成质量不及Gemma 4
DeepMind称,尽管自回归模型的生成质量相对较高,但如果用户想要一边写、一边实时补全、或者来回修改,模型可能要重新生成一整段,响应速度不够快。同时,不少开发实时交互式AI应用的开发者,也常常会面临本地推理带来的延迟问题。
自回归语言模型的工作原理类似打字机,从左至右逐一生成token。在云端场景中,服务端可批量处理数千条用户请求、分摊硬件负载,因此该模式具备较高效率。
但当模型在本地为单一用户运行时,这种逐词生成的方式会造成专用GPU或TPU利用率低下,硬件大部分时间都处于等待下一个“输入字符”的空闲状态。
不少研发团队在思考如何从模型架构层面提高推理速度,而扩散模型架构被认为是颇有潜力的一个方向。业界对其进行了长期研究,但要把这项技术用在大模型上一直困难重重。
具体而言,扩散模型的计算成本高,长文本的生成质量也难以保证,其对离得近的信息敏感,对远距离信息容易忽略,以致对长上下文理解存在局限,要在不牺牲质量、不烧掉太多算力的前提下把它做大、做稳定,长期以来缺乏有效的工程方案。
DeepMind此次推出DiffusionGemma正是为了改变了这一现状,它的核心思路是重新设计模型调用硬件的方式。
DiffusionGemma依托Gemma 4系列模型的单位参数性能,结合Gemini Diffusion相关研究打造,同时搭载全新的diffusion head(扩散输出头),能突破传统自回归LLM逐个token串行处理的模式,以最大化提升文本生成速度。

DiffusionGemma没有进行串行逐词预测,而是一次性生成包含256个token的完整文本段落。其一次性向处理器分配更大的计算任务,能够让硬件算力得到充分利用。这一特性在行内编辑、代码补全、氨基酸序列、数学图谱等非线性应用场景中有一定优势。
这款模型推理模式由此从单台串行工作的打字机,升级为可一次性输出整段文本的大型印刷设备。
不止如此,该模型推理阶段仅激活38亿参数,经过量化处理后,可流畅运行在高端消费级专用显卡18GB显存的硬件限制内。
DiffusionGemma的文本扩散技术,其原理与AI图像生成模型相似。图像模型从随机噪点开始,迭代优化最终生成清晰画面,DiffusionGemma则将这套逻辑应用于文本生成中。
首先,DiffusionGemma会先生成一组随机的占位token,作为文本生成的初始基底。随后该模型会进行多轮迭代计算,先锁定已经生成准确的token内容,再将这些有效信息作为上下文依据,持续修正和优化剩余文本。
如下所示,经过层层打磨后,该模型生成的整体内容不断收敛优化,最终形成通顺、完整、可直接使用的文本结果。

此外,在生成文本的全过程中,该模型能够同步处理整段内容,由此衍生出新的实用能力,比如精准补全复杂的Markdown格式,或是近乎实时地生成并渲染代码等。
二、能生成3D SVG图形,支持开发者微调优化
DiffusionGemma能直击本地推理带来延迟问题这一痛点,不过它也并非十全十美。以下是该款模型的功能特点:
首先是极速推理。DiffusionGemma将解码瓶颈从内存带宽转移至计算单元,在专用GPU上token输出速度实现提升。例如,其在单张英伟达H100的生成速度可达每秒1000个token以上,在GeForce RTX 5090的生成速度可达每秒700个token以上。
第二点则是智能自纠错。该模型会迭代优化输出内容,可一次性对整段文本进行校验,实时修正错误。
不止如此,该模型不局限于纯文本创作,还能理解文字语义、输出图形相关内容,可根据文字描述生成3D SVG图形。这一生成过程如下图所示,Hugging Face制作了演示样例,直观呈现了DiffusionGemma根据文字描述生成图形的全过程。

同时,开发者还可通过微调进一步提升DiffusionGemma在特定任务中的表现。
如下图所示,大模型高效微调开源框架Unsloth对DiffusionGemma进行数独任务微调,数独任务中每个token都与后续token存在关联,自回归模型处理该任务难度较大,而DiffusionGemma的双向注意力机制则能降低处理难度。

DiffusionGemma面向追求高速、本地实时交互的研究人员与开发者设计,适用于各类对速度敏感的交互式本地工作场景,例如行内编辑、内容快速迭代以及非线性文本结构生成等。
不过,DiffusionGemma主打的提速优势主要体现在本地部署及低并发推理场景。这种“快”不是所有场景都试用,尤其不适合高并发云端服务。
在高查询量(QPS)的云端服务场景中,自回归模型可充分榨取计算资源,DiffusionGemma的并行解码优势会不断弱化,还可能推高服务成本。
综合来看,DiffusionGemma的吞吐性能优势,在单张加速卡、中小批次任务的场景下最为突出。也就是说,个人开发者、小团队在本地跑实验的场景,使用DiffusionGemma能最大程度发挥其性能优势。
如下图所示,由于DiffusionGemma优先兼顾生成速度与并行输出架构,单请求生成token的速度约为Gemma 4的3.65倍,但整体输出质量不及Gemma 4。对于追求极致生成质量的应用场景,DeepMind建议用户继续使用标准版Gemma 4。

结语:聚焦端侧提速需求,探索文本生成新路径
DiffusionGemma的推出,并不意味着文本扩散模型将立即取代当前主流的自回归大模型。至少在生成质量、云端高并发部署效率等方面,自回归架构依然占据主导地位。
但DiffusionGemma展示了另一种可能。在本地推理、实时交互和低并发场景下,通过改变文本生成方式,该模型可以突破传统逐token解码带来的速度限制。
随着端侧AI和本地部署需求持续增长,如何在生成质量、推理速度与硬件成本之间取得平衡,正成为大模型发展的重要方向。DiffusionGemma更像是一次针对这一问题的前沿探索,其最终价值仍有待开发者社区和实际应用场景进一步验证。
来源:谷歌官网

