谷歌开源26B文本扩散MoE模型DiffusionGemma,生成速度最高提升4倍
谷歌于近日开源了实验性文本扩散模型DiffusionGemma,采用Apache 2.0许可证。该模型基于Gemma 4架构,总参数量26B,为混合专家(MoE)模型,推理时仅激活3.8B参数。与传统自回归模型逐token生成不同,DiffusionGemma通过扩散过程一次性生成256个token的文本块,在单张NVIDIA H100上达到每秒1000+ tokens,在RTX 5090上达到700+ tokens,速度较同规模自回归模型提升约4倍。
核心原理与速度优势
- 并行生成:模型从随机噪声开始,通过多轮迭代去噪,同时生成整块文本,而非逐token预测。这改变了推理瓶颈,从内存带宽受限转向计算受限,充分利用GPU并行算力。
- 硬件友好:量化后可在18GB显存以内的消费级显卡(如RTX 4090)上运行,降低了本地部署门槛。
- 双向注意力:每个token在生成过程中可看到所有其他token,支持实时自我纠错,在数独等需要前后文协调的任务中表现突出(微调后成功率从0%升至80%)。
性能与质量权衡
- 基准测试:在多项标准基准上,DiffusionGemma的生成质量低于同参数量的自回归版Gemma 4。谷歌明确表示,标准Gemma 4仍是高质量生产级输出的首选。
- 适用场景:DiffusionGemma面向速度敏感的本地交互场景,如行内编辑、代码补全、快速迭代和非线性文本结构生成。在高并发云端服务中,自回归模型通过批处理可充分利用算力,扩散模型的并行优势可能减弱。
生态支持与开源
- 框架兼容:已获得vLLM、MLX、Unsloth、NeMo等推理框架支持,llama.cpp集成也在进行中。
- 硬件覆盖:NVIDIA从RTX 4090到H100及DGX Spark全线支持。
- 开源协议:采用Apache 2.0,权重可在Hugging Face下载,允许商用。
行业背景
扩散文本模型并非全新概念。今年2月,初创公司Inception Labs发布了Mercury 2,号称速度比Claude、Gemini快5-10倍。谷歌去年I/O大会曾展示Gemini Diffusion实验,采样速度达1479 tokens/s,但此后沉寂。此次DiffusionGemma的发布,结合完整的生态支持,表明谷歌正积极推动扩散模型在文本生成领域的实用化。
相关资讯
4月1日 · Meta AI
12月11日 · Google DeepMind
5月25日 · Google DeepMind
5月22日 · Google AI Blog
5月16日 · Meta AI
4月14日 · The Decoder
延伸阅读 · 相关教程
How to use Perplexity AI Pro for deep research, academic literature review, and competitive analysis—with real examples and a Google comparison
Scale content production while maintaining quality and search rankings