模型

阶跃星辰开源JetSpec：大模型解码速度最高提升近10倍

阶跃星辰联合多所高校提出投机解码新方法JetSpec，通过因果并行树草稿生成，在Qwen3-8B上实现最高9.64倍端到端解码加速，平均一次验证可接受10.76个token。该工作与DeepSeek同期发布的DSpark从不同角度解决推理效率瓶颈，共同指向Agent规模化落地对推理效率的核心需求。

核心加速效果

端到端加速：在Qwen3-8B上，相比标准自回归解码，JetSpec在MATH-500上实现9.64倍加速，HumanEval上7.12倍，LiveCodeBench上7.67倍，MT-Bench上4.58倍。
接受长度：在MATH-500上，一次验证平均可接受10.76个token；在投机预算128时，平均接受长度达9.82，超过DFlash的7.34和DDTree的8.66。

技术原理：因果并行树草稿

投机解码通过轻量级草稿模型生成候选token，再由目标模型并行验证。传统方法面临因果一致性与并行效率的两难困境：自回归草稿（如EAGLE）因果性好但串行步骤多，块并行草稿（如DFlash）成本低但缺乏分支级因果约束，导致接受率低。

JetSpec将因果性直接融入并行草稿头，生成路径条件化的草稿树，使更大草稿预算能转化为更长的可接受前缀。在低延迟场景下，系统可承受稍高的草稿计算开销以提升接受率，从而将算力直接转化为更低的单用户延迟。

与DSpark的互补关系

DeepSeek同期发布的DSpark面向高并发、预算受限场景，通过轻量级串行头和置信度估计控制验证成本，提升吞吐量。JetSpec则面向低并发、延迟敏感场景，最大化单次验证的接受率。两者从吞吐-延迟边界的两个互补侧面切入，共同说明推理效率正成为Agent规模化落地的基础变量。

团队与开源

JetSpec论文作者包括阶跃星辰CEO姜大昕、CTO朱亦博，一作为UCSD博士生Lanxiang Hu（在阶跃实习期间完成），其他作者来自浙江大学、UIUC、南京大学。项目已开源：论文地址 https://arxiv.org/abs/2606.18394 ，代码仓库 https://github.com/hao-ai-lab/JetSpec 。

2026年6月30日来源：综合整理

model speculative-decoding efficiency open-source

阶跃星辰开源JetSpec：大模型解码速度最高提升近10倍

核心加速效果

技术原理：因果并行树草稿

与DSpark的互补关系

团队与开源

Documentation

Getting Started

Learn more