模型

DeepSeek 发布 DSpark 推理加速技术，V4 线上推理速度提升最高 85%

DeepSeek 联合北京大学于近日发布投机解码框架 DSpark，并同步开源全栈训练框架 DeepSpec。DSpark 已部署在 DeepSeek-V4 的 Flash 和 Pro 版本线上流量中，替换了上一代 MTP-1 方案。该技术并非全新模型架构，而是在 V4 基础上增加推测性解码模块，重点在于工程落地。

技术核心：半自回归生成 + 置信度调度

DSpark 的核心创新包含两点：

半自回归生成（Semi-Autoregressive Generation）：结合并行草稿模型（如 DFlash）的高吞吐与自回归草稿模型（如 Eagle3）的连贯性。并行骨干网络一次生成所有候选 token 的 logits，随后轻量级串行模块（默认 Markov head，低秩分解 r=256）逐位置注入前缀依赖，修正并行方案常见的“后缀衰减”问题。该串行模块仅增加 0.2%–1.3% 的延迟。
硬件感知的置信度调度验证（Confidence-Scheduled Verification）：为每个草稿位置配备置信度头，预测 token 通过验证的概率，并通过顺序温度缩放（STS）校准。调度器根据实时 GPU 负载动态决定每个请求的验证长度：低负载时多验证，高负载时收紧，避免算力浪费在大概率被拒的尾部 token。

性能数据：离线与线上均显著提升

离线评测中，在 Qwen3 系列（4B/8B/14B）和 Gemma4-12B 目标模型上，DSpark 的平均接受长度相比 Eagle3 提升 26.7%–30.9%，相比 DFlash 提升 16.3%–18.4%。结构化任务（数学、代码）的接受长度高于开放对话。

线上生产环境数据（与 MTP-1 基线对比）：

在维持相同总体吞吐量的前提下，V4-Flash 用户生成速度提升 60%–85%，V4-Pro 提升 57%–78%。
在严格单用户速度要求（如 120 tok/s/user）下，MTP-1 已接近极限，DSpark 仍能维持，相对吞吐差距可达 +661%（论文强调该数字更多体现可扩展的交互档位，而非实际六倍提升）。

开源框架 DeepSpec

DeepSpec 是配套的全栈训练与评估代码库，支持 DSpark、DFlash、Eagle3 三种草稿模型，以及 Qwen3、Gemma 等目标模型。流程分为数据准备（需约 38 TB 目标缓存）、训练（默认 8 卡）和评估（覆盖 GSM8K、MATH500、HumanEval 等基准）。该框架将推测性解码的工程实践标准化，便于研究者复现和定制。

局限与后续方向

论文指出，DSpark 的起草成本仍无法消除：并行骨干生成第一块草稿是固定开销，对于接受率低的复杂请求，前期投入可能收不回来。团队后续方向是让草稿模型能根据难度提前停止。

2026年6月29日来源：综合整理

deepseek dspark speculative-decoding inference-acceleration deepseek-v4

DeepSeek 发布 DSpark 推理加速技术，V4 线上推理速度提升最高 85%

技术核心：半自回归生成 + 置信度调度

性能数据：离线与线上均显著提升

开源框架 DeepSpec

局限与后续方向

Documentation

Getting Started

Learn more