EN
返回资讯列表
框架

阶跃星辰联合多所高校开源JetSpec,大模型推测解码加速最高达9.64倍

阶跃星辰(StepFun)联合加州大学圣地亚哥分校、浙江大学、伊利诺伊大学、南京大学团队,于近期开源了推测解码(Speculative Decoding)框架 JetSpec。该框架通过因果并行草稿头(causal parallel draft head)在一次前向传播中生成整棵候选树,同时保持分支级因果一致性,突破了传统推测解码的扩展天花板。

核心加速效果

在 H100 GPU 上,JetSpec 在 Qwen3-8B 模型上实现了显著加速:

  • MATH-500:端到端解码加速比达 9.64 倍,平均接受长度 10.76 个 token
  • GSM8K:7.82 倍
  • AIME25:8.78 倍
  • HumanEval:7.12 倍
  • MBPP:6.73 倍
  • LiveCodeBench:7.67 倍
  • MT-Bench:4.58 倍

在 MoE 模型 Qwen3-30B-A3B 上,MATH-500 加速比达 9.45 倍,AIME25 达 9.35 倍,表明方法不依赖特定架构。

技术原理:破解因果与效率两难

推测解码的加速比受限于草稿生成成本(c)和逐 token 接受率(α)。传统方法面临两难:

  • 自回归草稿(如 EAGLE 系列):因果一致性好、接受率高,但串行生成步骤多,草稿成本随树深增长
  • 块并行草稿(如 DFlash 系列):一次前向生成多个候选,成本极低,但缺乏分支级因果条件,导致“局部合理、整体不一致”,接受率低

JetSpec 的因果并行草稿头复用目标模型冻结的隐藏状态,通过树形因果注意力掩码(tree-causal attention mask)实现:每个树节点只能看到原始前缀和本分支祖先 token,所有节点在一次前向中并行计算,同时保持分支内自回归依赖。训练使用前向 KL 散度蒸馏,数据包括 780K 条 Nemotron Post-Training Dataset V2 和 20K 条 CodeAlpaca。

与同期工作 DSpark 的互补

JetSpec 与 DeepSeek 同期开源的 DSpark 从不同角度优化推理效率:

  • DSpark:面向高并发、预算受限场景,通过轻量级修正头和置信度调度提升吞吐量
  • JetSpec:面向低延迟、计算预算充足场景,通过因果并行树生成最大化单次验证接受率,降低单用户延迟

两者共同指向因果性成为下一代推测解码的关键。

服务场景与预算策略

  • 低并发(batch size=1):树预算从 16 增至 128,吞吐从 443.3 TPS 升至 968.2 TPS,加速比从 3.09 倍升至 6.75 倍
  • 高并发(batch size=32):预算 256 时加速比降至 2.85 倍,建议采用小到中等预算

团队目前仅评估静态预算,动态调整留待后续工作。

开源与团队

项目已开源至 GitHub(hao-ai-lab/JetSpec),论文见 arXiv(2606.18394),模型权重发布于 Hugging Face(JetSpec)。作者包括阶跃星辰 CEO 姜大昕、CTO 朱亦博,以及 UCSD 博士生 Lanxiang Hu 等。

2026年7月1日来源:综合整理