返回资讯列表
模型

谷歌开源26B文本扩散MoE模型DiffusionGemma,生成速度最高提升4倍

谷歌于近日开源了实验性文本扩散模型DiffusionGemma,采用Apache 2.0许可证。该模型基于Gemma 4架构,总参数量26B,为混合专家(MoE)模型,推理时仅激活3.8B参数。与传统自回归模型逐token生成不同,DiffusionGemma通过扩散过程一次性生成256个token的文本块,在单张NVIDIA H100上达到每秒1000+ tokens,在RTX 5090上达到700+ tokens,速度较同规模自回归模型提升约4倍。

核心原理与速度优势

  • 并行生成:模型从随机噪声开始,通过多轮迭代去噪,同时生成整块文本,而非逐token预测。这改变了推理瓶颈,从内存带宽受限转向计算受限,充分利用GPU并行算力。
  • 硬件友好:量化后可在18GB显存以内的消费级显卡(如RTX 4090)上运行,降低了本地部署门槛。
  • 双向注意力:每个token在生成过程中可看到所有其他token,支持实时自我纠错,在数独等需要前后文协调的任务中表现突出(微调后成功率从0%升至80%)。

性能与质量权衡

  • 基准测试:在多项标准基准上,DiffusionGemma的生成质量低于同参数量的自回归版Gemma 4。谷歌明确表示,标准Gemma 4仍是高质量生产级输出的首选。
  • 适用场景:DiffusionGemma面向速度敏感的本地交互场景,如行内编辑、代码补全、快速迭代和非线性文本结构生成。在高并发云端服务中,自回归模型通过批处理可充分利用算力,扩散模型的并行优势可能减弱。

生态支持与开源

  • 框架兼容:已获得vLLM、MLX、Unsloth、NeMo等推理框架支持,llama.cpp集成也在进行中。
  • 硬件覆盖:NVIDIA从RTX 4090到H100及DGX Spark全线支持。
  • 开源协议:采用Apache 2.0,权重可在Hugging Face下载,允许商用。

行业背景

扩散文本模型并非全新概念。今年2月,初创公司Inception Labs发布了Mercury 2,号称速度比Claude、Gemini快5-10倍。谷歌去年I/O大会曾展示Gemini Diffusion实验,采样速度达1479 tokens/s,但此后沉寂。此次DiffusionGemma的发布,结合完整的生态支持,表明谷歌正积极推动扩散模型在文本生成领域的实用化。

2026年6月14日来源:综合整理