EN
返回资讯列表
模型

DeepSeek V4 更新 DSpark 投机解码框架,推理速度提升最高 85%

DeepSeek 于近日为 V4 模型(Flash 和 Pro 版本)上线了新的投机解码框架 DSpark,并同步开源了配套训练框架 DeepSpec。该框架由 DeepSeek 与北京大学合作完成,已在线上流量中替换上一代 MTP-1 方案。

核心创新

DSpark 并非全新模型,而是在 V4 基础上增加推测性解码模块,重点在于工程落地。其两大创新为:

  • 半自回归生成:保留并行草稿模型的高吞吐优势,同时加入轻量串行模块(默认 Markov head,低秩分解 r=256)建模 token 间依赖,缓解并行草稿尾部接受率衰减问题。论文发现并行草稿在首位 token 接受率上反而优于自回归(如数学任务 0.88 vs 0.81),DSpark 结合两者之长。
  • 置信度调度验证:为每个草稿位置配备置信度头,预测 token 通过验证的概率,再经 STS 校准后,由硬件感知调度器根据实时负载动态决定验证长度,避免高并发下验证尾部低概率 token 浪费算力。

性能数据

  • 离线评测:在 Qwen3 系列(4B/8B/14B)和 Gemma4-12B 上,平均接受长度比 Eagle3 提升 26.7%–30.9%,比 DFlash 提升 16.3%–18.4%。
  • 线上实测:在维持相同总体吞吐量下,V4-Flash 用户生成速度提升 60%–85%,V4-Pro 提升 57%–78%。在严格延迟要求(如 120 tok/s/user)下,DSpark 可支持更高并发,相对吞吐差距可达 +661%(论文强调此数字更多说明扩展了可用交互档位)。

开源框架 DeepSpec

DeepSpec 提供全栈工具链,包含数据准备、训练和评估三个阶段。数据准备阶段需注意目标缓存体积(如 Qwen3-4B 约 38 TB)。内置 DSpark、DFlash、Eagle3 三种草稿模型,支持 Qwen3 和 Gemma 系列目标模型,默认配置面向单节点 8 卡环境。

背景与局限

DeepSeek 在推理效率上持续投入:V2 的 MLA、V3 的 MTP、V3.2 的稀疏注意力。DSpark 是首次直接用于主力产品。论文指出其局限:起草成本仍为固定开销,对于接受率低的复杂请求前期投入可能收不回,后续方向是让草稿模型按难度提前停止。

2026年6月27日来源:综合整理