框架

阶跃星辰联合多所高校开源JetSpec，大模型推测解码加速最高达9.64倍

阶跃星辰（StepFun）联合加州大学圣地亚哥分校、浙江大学、伊利诺伊大学、南京大学团队，于近期开源了推测解码（Speculative Decoding）框架 JetSpec。该框架通过因果并行草稿头（causal parallel draft head）在一次前向传播中生成整棵候选树，同时保持分支级因果一致性，突破了传统推测解码的扩展天花板。

核心加速效果

在 H100 GPU 上，JetSpec 在 Qwen3-8B 模型上实现了显著加速：

MATH-500：端到端解码加速比达 9.64 倍，平均接受长度 10.76 个 token
GSM8K：7.82 倍
AIME25：8.78 倍
HumanEval：7.12 倍
MBPP：6.73 倍
LiveCodeBench：7.67 倍
MT-Bench：4.58 倍

在 MoE 模型 Qwen3-30B-A3B 上，MATH-500 加速比达 9.45 倍，AIME25 达 9.35 倍，表明方法不依赖特定架构。

技术原理：破解因果与效率两难

推测解码的加速比受限于草稿生成成本（c）和逐 token 接受率（α）。传统方法面临两难：

自回归草稿（如 EAGLE 系列）：因果一致性好、接受率高，但串行生成步骤多，草稿成本随树深增长
块并行草稿（如 DFlash 系列）：一次前向生成多个候选，成本极低，但缺乏分支级因果条件，导致“局部合理、整体不一致”，接受率低

JetSpec 的因果并行草稿头复用目标模型冻结的隐藏状态，通过树形因果注意力掩码（tree-causal attention mask）实现：每个树节点只能看到原始前缀和本分支祖先 token，所有节点在一次前向中并行计算，同时保持分支内自回归依赖。训练使用前向 KL 散度蒸馏，数据包括 780K 条 Nemotron Post-Training Dataset V2 和 20K 条 CodeAlpaca。

与同期工作 DSpark 的互补

JetSpec 与 DeepSeek 同期开源的 DSpark 从不同角度优化推理效率：

DSpark：面向高并发、预算受限场景，通过轻量级修正头和置信度调度提升吞吐量
JetSpec：面向低延迟、计算预算充足场景，通过因果并行树生成最大化单次验证接受率，降低单用户延迟

两者共同指向因果性成为下一代推测解码的关键。

服务场景与预算策略

低并发（batch size=1）：树预算从 16 增至 128，吞吐从 443.3 TPS 升至 968.2 TPS，加速比从 3.09 倍升至 6.75 倍
高并发（batch size=32）：预算 256 时加速比降至 2.85 倍，建议采用小到中等预算

团队目前仅评估静态预算，动态调整留待后续工作。

开源与团队

项目已开源至 GitHub（hao-ai-lab/JetSpec），论文见 arXiv（2606.18394），模型权重发布于 Hugging Face（JetSpec）。作者包括阶跃星辰 CEO 姜大昕、CTO 朱亦博，以及 UCSD 博士生 Lanxiang Hu 等。

2026年7月1日来源：综合整理

speculative decoding llm inference open source stepfun

阶跃星辰联合多所高校开源JetSpec，大模型推测解码加速最高达9.64倍

核心加速效果

技术原理：破解因果与效率两难

与同期工作 DSpark 的互补

服务场景与预算策略

开源与团队

Documentation

Getting Started

Learn more