EN
返回资讯列表
模型

阶跃星辰开源JetSpec:大模型解码速度最高提升近10倍

阶跃星辰联合多所高校提出投机解码新方法JetSpec,通过因果并行树草稿生成,在Qwen3-8B上实现最高9.64倍端到端解码加速,平均一次验证可接受10.76个token。该工作与DeepSeek同期发布的DSpark从不同角度解决推理效率瓶颈,共同指向Agent规模化落地对推理效率的核心需求。

核心加速效果

  • 端到端加速:在Qwen3-8B上,相比标准自回归解码,JetSpec在MATH-500上实现9.64倍加速,HumanEval上7.12倍,LiveCodeBench上7.67倍,MT-Bench上4.58倍。
  • 接受长度:在MATH-500上,一次验证平均可接受10.76个token;在投机预算128时,平均接受长度达9.82,超过DFlash的7.34和DDTree的8.66。

技术原理:因果并行树草稿

投机解码通过轻量级草稿模型生成候选token,再由目标模型并行验证。传统方法面临因果一致性与并行效率的两难困境:自回归草稿(如EAGLE)因果性好但串行步骤多,块并行草稿(如DFlash)成本低但缺乏分支级因果约束,导致接受率低。

JetSpec将因果性直接融入并行草稿头,生成路径条件化的草稿树,使更大草稿预算能转化为更长的可接受前缀。在低延迟场景下,系统可承受稍高的草稿计算开销以提升接受率,从而将算力直接转化为更低的单用户延迟。

与DSpark的互补关系

DeepSeek同期发布的DSpark面向高并发、预算受限场景,通过轻量级串行头和置信度估计控制验证成本,提升吞吐量。JetSpec则面向低并发、延迟敏感场景,最大化单次验证的接受率。两者从吞吐-延迟边界的两个互补侧面切入,共同说明推理效率正成为Agent规模化落地的基础变量。

团队与开源

JetSpec论文作者包括阶跃星辰CEO姜大昕、CTO朱亦博,一作为UCSD博士生Lanxiang Hu(在阶跃实习期间完成),其他作者来自浙江大学、UIUC、南京大学。项目已开源:论文地址 https://arxiv.org/abs/2606.18394 ,代码仓库 https://github.com/hao-ai-lab/JetSpec

2026年6月30日来源:综合整理