返回资讯列表

模型

DeepSeek V4 更新 DSpark 投机解码框架，推理速度提升最高 85%

DeepSeek 于近日为 V4 模型（Flash 和 Pro 版本）上线了新的投机解码框架 DSpark，并同步开源了配套训练框架 DeepSpec。该框架由 DeepSeek 与北京大学合作完成，已在线上流量中替换上一代 MTP-1 方案。

核心创新

DSpark 并非全新模型，而是在 V4 基础上增加推测性解码模块，重点在于工程落地。其两大创新为：

半自回归生成：保留并行草稿模型的高吞吐优势，同时加入轻量串行模块（默认 Markov head，低秩分解 r=256）建模 token 间依赖，缓解并行草稿尾部接受率衰减问题。论文发现并行草稿在首位 token 接受率上反而优于自回归（如数学任务 0.88 vs 0.81），DSpark 结合两者之长。
置信度调度验证：为每个草稿位置配备置信度头，预测 token 通过验证的概率，再经 STS 校准后，由硬件感知调度器根据实时负载动态决定验证长度，避免高并发下验证尾部低概率 token 浪费算力。

性能数据

离线评测：在 Qwen3 系列（4B/8B/14B）和 Gemma4-12B 上，平均接受长度比 Eagle3 提升 26.7%–30.9%，比 DFlash 提升 16.3%–18.4%。
线上实测：在维持相同总体吞吐量下，V4-Flash 用户生成速度提升 60%–85%，V4-Pro 提升 57%–78%。在严格延迟要求（如 120 tok/s/user）下，DSpark 可支持更高并发，相对吞吐差距可达 +661%（论文强调此数字更多说明扩展了可用交互档位）。

开源框架 DeepSpec

DeepSpec 提供全栈工具链，包含数据准备、训练和评估三个阶段。数据准备阶段需注意目标缓存体积（如 Qwen3-4B 约 38 TB）。内置 DSpark、DFlash、Eagle3 三种草稿模型，支持 Qwen3 和 Gemma 系列目标模型，默认配置面向单节点 8 卡环境。

背景与局限

DeepSeek 在推理效率上持续投入：V2 的 MLA、V3 的 MTP、V3.2 的稀疏注意力。DSpark 是首次直接用于主力产品。论文指出其局限：起草成本仍为固定开销，对于接受率低的复杂请求前期投入可能收不回，后续方向是让草稿模型按难度提前停止。

2026年6月27日来源：综合整理

deepseek v4 dspark speculative-decoding inference-acceleration

相关资讯

DeepSeek识图功能全量上线：能批改作业但认错自家创始人

6月18日 · 综合整理

DeepSeek-R1 开源，推理成本仅 OpenAI 的 3%

1月20日 · GitHub / DeepSeek

中国AI 2025：DeepSeek、百度文心与通义千问如何在出口管制下全球竞争

4月10日 · MIT Technology Review

DeepSeek V3 开源前沿级AI模型

5月20日 · DeepSeek GitHub

DeepSeek完成超500亿元首轮融资，估值超500亿美元，特殊交易结构确保控制权

6月17日 · 综合整理

百度开源Unlimited OCR：单次推理解析数十页文档，刷新OmniDocBench SOTA

6月25日 · 综合整理

延伸阅读 · 相关教程

DeepSeek V3 API 完全指南 2026：设置、功能与最佳实践

使用 DeepSeek V3 构建生产级应用所需的一切

相关资源

浏览 Agent Hub 探索 MCP 专区查看更多资讯

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide