DeepSeek 发布 DSpark 推理加速技术,V4 线上推理速度提升最高 85%
DeepSeek 联合北京大学于近日发布投机解码框架 DSpark,并同步开源全栈训练框架 DeepSpec。DSpark 已部署在 DeepSeek-V4 的 Flash 和 Pro 版本线上流量中,替换了上一代 MTP-1 方案。该技术并非全新模型架构,而是在 V4 基础上增加推测性解码模块,重点在于工程落地。
技术核心:半自回归生成 + 置信度调度
DSpark 的核心创新包含两点:
-
半自回归生成(Semi-Autoregressive Generation):结合并行草稿模型(如 DFlash)的高吞吐与自回归草稿模型(如 Eagle3)的连贯性。并行骨干网络一次生成所有候选 token 的 logits,随后轻量级串行模块(默认 Markov head,低秩分解 r=256)逐位置注入前缀依赖,修正并行方案常见的“后缀衰减”问题。该串行模块仅增加 0.2%–1.3% 的延迟。
-
硬件感知的置信度调度验证(Confidence-Scheduled Verification):为每个草稿位置配备置信度头,预测 token 通过验证的概率,并通过顺序温度缩放(STS)校准。调度器根据实时 GPU 负载动态决定每个请求的验证长度:低负载时多验证,高负载时收紧,避免算力浪费在大概率被拒的尾部 token。
性能数据:离线与线上均显著提升
离线评测中,在 Qwen3 系列(4B/8B/14B)和 Gemma4-12B 目标模型上,DSpark 的平均接受长度相比 Eagle3 提升 26.7%–30.9%,相比 DFlash 提升 16.3%–18.4%。结构化任务(数学、代码)的接受长度高于开放对话。
线上生产环境数据(与 MTP-1 基线对比):
- 在维持相同总体吞吐量的前提下,V4-Flash 用户生成速度提升 60%–85%,V4-Pro 提升 57%–78%。
- 在严格单用户速度要求(如 120 tok/s/user)下,MTP-1 已接近极限,DSpark 仍能维持,相对吞吐差距可达 +661%(论文强调该数字更多体现可扩展的交互档位,而非实际六倍提升)。
开源框架 DeepSpec
DeepSpec 是配套的全栈训练与评估代码库,支持 DSpark、DFlash、Eagle3 三种草稿模型,以及 Qwen3、Gemma 等目标模型。流程分为数据准备(需约 38 TB 目标缓存)、训练(默认 8 卡)和评估(覆盖 GSM8K、MATH500、HumanEval 等基准)。该框架将推测性解码的工程实践标准化,便于研究者复现和定制。
局限与后续方向
论文指出,DSpark 的起草成本仍无法消除:并行骨干生成第一块草稿是固定开销,对于接受率低的复杂请求,前期投入可能收不回来。团队后续方向是让草稿模型能根据难度提前停止。
相关资讯
6月27日 · 综合整理
6月18日 · 综合整理
1月20日 · GitHub / DeepSeek
4月10日 · MIT Technology Review
5月20日 · DeepSeek GitHub
6月17日 · 综合整理