模型

谷歌开源26B文本扩散MoE模型DiffusionGemma，生成速度最高提升4倍

谷歌于近日开源了实验性文本扩散模型DiffusionGemma，采用Apache 2.0许可证。该模型基于Gemma 4架构，总参数量26B，为混合专家（MoE）模型，推理时仅激活3.8B参数。与传统自回归模型逐token生成不同，DiffusionGemma通过扩散过程一次性生成256个token的文本块，在单张NVIDIA H100上达到每秒1000+ tokens，在RTX 5090上达到700+ tokens，速度较同规模自回归模型提升约4倍。

核心原理与速度优势

并行生成：模型从随机噪声开始，通过多轮迭代去噪，同时生成整块文本，而非逐token预测。这改变了推理瓶颈，从内存带宽受限转向计算受限，充分利用GPU并行算力。
硬件友好：量化后可在18GB显存以内的消费级显卡（如RTX 4090）上运行，降低了本地部署门槛。
双向注意力：每个token在生成过程中可看到所有其他token，支持实时自我纠错，在数独等需要前后文协调的任务中表现突出（微调后成功率从0%升至80%）。

性能与质量权衡

基准测试：在多项标准基准上，DiffusionGemma的生成质量低于同参数量的自回归版Gemma 4。谷歌明确表示，标准Gemma 4仍是高质量生产级输出的首选。
适用场景：DiffusionGemma面向速度敏感的本地交互场景，如行内编辑、代码补全、快速迭代和非线性文本结构生成。在高并发云端服务中，自回归模型通过批处理可充分利用算力，扩散模型的并行优势可能减弱。

生态支持与开源

框架兼容：已获得vLLM、MLX、Unsloth、NeMo等推理框架支持，llama.cpp集成也在进行中。
硬件覆盖：NVIDIA从RTX 4090到H100及DGX Spark全线支持。
开源协议：采用Apache 2.0，权重可在Hugging Face下载，允许商用。

行业背景

扩散文本模型并非全新概念。今年2月，初创公司Inception Labs发布了Mercury 2，号称速度比Claude、Gemini快5-10倍。谷歌去年I/O大会曾展示Gemini Diffusion实验，采样速度达1479 tokens/s，但此后沉寂。此次DiffusionGemma的发布，结合完整的生态支持，表明谷歌正积极推动扩散模型在文本生成领域的实用化。

2026年6月14日来源：综合整理

google diffusiongemma text-diffusion moe open-source

谷歌开源26B文本扩散MoE模型DiffusionGemma，生成速度最高提升4倍

核心原理与速度优势

性能与质量权衡

生态支持与开源

行业背景

Documentation

Getting Started

Learn more