阶跃星辰联合多所高校开源JetSpec,大模型推测解码加速最高达9.64倍
阶跃星辰(StepFun)联合加州大学圣地亚哥分校、浙江大学、伊利诺伊大学、南京大学团队,于近期开源了推测解码(Speculative Decoding)框架 JetSpec。该框架通过因果并行草稿头(causal parallel draft head)在一次前向传播中生成整棵候选树,同时保持分支级因果一致性,突破了传统推测解码的扩展天花板。
核心加速效果
在 H100 GPU 上,JetSpec 在 Qwen3-8B 模型上实现了显著加速:
- MATH-500:端到端解码加速比达 9.64 倍,平均接受长度 10.76 个 token
- GSM8K:7.82 倍
- AIME25:8.78 倍
- HumanEval:7.12 倍
- MBPP:6.73 倍
- LiveCodeBench:7.67 倍
- MT-Bench:4.58 倍
在 MoE 模型 Qwen3-30B-A3B 上,MATH-500 加速比达 9.45 倍,AIME25 达 9.35 倍,表明方法不依赖特定架构。
技术原理:破解因果与效率两难
推测解码的加速比受限于草稿生成成本(c)和逐 token 接受率(α)。传统方法面临两难:
- 自回归草稿(如 EAGLE 系列):因果一致性好、接受率高,但串行生成步骤多,草稿成本随树深增长
- 块并行草稿(如 DFlash 系列):一次前向生成多个候选,成本极低,但缺乏分支级因果条件,导致“局部合理、整体不一致”,接受率低
JetSpec 的因果并行草稿头复用目标模型冻结的隐藏状态,通过树形因果注意力掩码(tree-causal attention mask)实现:每个树节点只能看到原始前缀和本分支祖先 token,所有节点在一次前向中并行计算,同时保持分支内自回归依赖。训练使用前向 KL 散度蒸馏,数据包括 780K 条 Nemotron Post-Training Dataset V2 和 20K 条 CodeAlpaca。
与同期工作 DSpark 的互补
JetSpec 与 DeepSeek 同期开源的 DSpark 从不同角度优化推理效率:
- DSpark:面向高并发、预算受限场景,通过轻量级修正头和置信度调度提升吞吐量
- JetSpec:面向低延迟、计算预算充足场景,通过因果并行树生成最大化单次验证接受率,降低单用户延迟
两者共同指向因果性成为下一代推测解码的关键。
服务场景与预算策略
- 低并发(batch size=1):树预算从 16 增至 128,吞吐从 443.3 TPS 升至 968.2 TPS,加速比从 3.09 倍升至 6.75 倍
- 高并发(batch size=32):预算 256 时加速比降至 2.85 倍,建议采用小到中等预算
团队目前仅评估静态预算,动态调整留待后续工作。
开源与团队
项目已开源至 GitHub(hao-ai-lab/JetSpec),论文见 arXiv(2606.18394),模型权重发布于 Hugging Face(JetSpec)。作者包括阶跃星辰 CEO 姜大昕、CTO 朱亦博,以及 UCSD 博士生 Lanxiang Hu 等。
相关资讯
6月13日 · 综合整理
11月25日 · modelcontextprotocol.io
7月15日 · LangChain Blog
1月5日 · Dify Blog
2月20日 · MCP 官网
9月4日 · Microsoft Research