框架
DeepSeek DSpark 技术被移植至苹果芯片,Mac 本地大模型加速最高 60%
DeepSeek 于 6 月 27 日开源的投机解码技术 DSpark,已被工程师 Abdur Rahim 移植至苹果芯片(Mac),项目名为 mlx-dspark。该移植版本支持 Gemma-4 12B 和 Qwen3-4B 模型,在 M4 Pro 上生成速度分别提升约 1.6 倍(从 18.4 tok/s 至约 30 tok/s)和约 1.4 倍(从 52.9 tok/s 至约 73 tok/s)。
技术原理与实现
- DSpark 核心思路:使用一个小型草稿模型快速生成候选词,再由目标模型批量验证,通过则保留,否则重新生成。
- 苹果芯片上的成本差异:数据中心 GPU 的批量验证成本固定,而苹果芯片的验证成本随候选词数量线性增加。Rahim 实测 Gemma-4 12B 每多验证一个 token 需约 14 毫秒,并建立成本模型,得出理论加速上限约 2.2 倍。
- 实现细节:草稿模型从 HuggingFace checkpoint 提取,量化至 4-bit(仅 1.8GB),目标模型默认使用 8-bit 精度(bf16 验证成本更高,反而更慢)。
高精度还原与采样支持
- 多数本地移植仅支持贪婪解码,但 mlx-dspark 实现了论文中的温度采样方法,输出分布与目标模型严格一致,逐字节相同。
- Rahim 发现:若草稿模型搭配未指令微调的基础版目标模型,候选词通过率仅 47%;换成指令微调版本后,通过率升至 82%。
集成 DFlash 方案
- 应 DFlash 论文作者 Jian Chen 请求,Rahim 将 DFlash 方案也集成至 mlx-dspark。DFlash 采用并行块扩散(一次生成 16 个 token),在代码和数学任务上加速比达约 2.1 倍(约 36 tok/s),优于 DSpark。
- 但在开放聊天场景中,DFlash 的接受长度受限,DSpark 反而更快。mlx-dspark v0.0.3 允许用户手动调整 DFlash 的有效块长度,以适配不同任务。
影响与展望
- 这是 DSpark 开源后的首个苹果芯片原生实现,使 Mac 用户无需依赖数据中心 GPU 即可享受加速。
- Rahim 表示,该方法可扩展至更大的草稿模型(如 Qwen3-8B 和 14B)。
- 同一时期,DeepSeek 也在积极招人,包括清华大学博士生顾煜贤(苹果博士奖学金获得者)的加入,其研究方向涵盖模型压缩与高效架构,与 DSpark 等技术形成协同。
2026年7月5日来源:综合整理
相关资讯
DeepSeek 发布 DSpark 推理加速技术,V4 线上推理速度提升最高 85%
6月29日 · 综合整理
DeepSeek V4 更新 DSpark 投机解码框架,推理速度提升最高 85%
6月27日 · 综合整理
DeepSeek V4 正式版定档7月中旬,引入峰谷定价并发布推理加速框架 DSpark
6月30日 · 综合整理
DeepSeek识图功能全量上线:能批改作业但认错自家创始人
6月18日 · 综合整理
中国AI 2025:DeepSeek、百度文心与通义千问如何在出口管制下全球竞争
4月10日 · MIT Technology Review
DeepSeek V3 开源前沿级AI模型
5月20日 · DeepSeek GitHub