EN
返回资讯列表
框架

DeepSeek DSpark 技术被移植至苹果芯片,Mac 本地大模型加速最高 60%

DeepSeek 于 6 月 27 日开源的投机解码技术 DSpark,已被工程师 Abdur Rahim 移植至苹果芯片(Mac),项目名为 mlx-dspark。该移植版本支持 Gemma-4 12B 和 Qwen3-4B 模型,在 M4 Pro 上生成速度分别提升约 1.6 倍(从 18.4 tok/s 至约 30 tok/s)和约 1.4 倍(从 52.9 tok/s 至约 73 tok/s)。

技术原理与实现

  • DSpark 核心思路:使用一个小型草稿模型快速生成候选词,再由目标模型批量验证,通过则保留,否则重新生成。
  • 苹果芯片上的成本差异:数据中心 GPU 的批量验证成本固定,而苹果芯片的验证成本随候选词数量线性增加。Rahim 实测 Gemma-4 12B 每多验证一个 token 需约 14 毫秒,并建立成本模型,得出理论加速上限约 2.2 倍。
  • 实现细节:草稿模型从 HuggingFace checkpoint 提取,量化至 4-bit(仅 1.8GB),目标模型默认使用 8-bit 精度(bf16 验证成本更高,反而更慢)。

高精度还原与采样支持

  • 多数本地移植仅支持贪婪解码,但 mlx-dspark 实现了论文中的温度采样方法,输出分布与目标模型严格一致,逐字节相同。
  • Rahim 发现:若草稿模型搭配未指令微调的基础版目标模型,候选词通过率仅 47%;换成指令微调版本后,通过率升至 82%。

集成 DFlash 方案

  • 应 DFlash 论文作者 Jian Chen 请求,Rahim 将 DFlash 方案也集成至 mlx-dspark。DFlash 采用并行块扩散(一次生成 16 个 token),在代码和数学任务上加速比达约 2.1 倍(约 36 tok/s),优于 DSpark。
  • 但在开放聊天场景中,DFlash 的接受长度受限,DSpark 反而更快。mlx-dspark v0.0.3 允许用户手动调整 DFlash 的有效块长度,以适配不同任务。

影响与展望

  • 这是 DSpark 开源后的首个苹果芯片原生实现,使 Mac 用户无需依赖数据中心 GPU 即可享受加速。
  • Rahim 表示,该方法可扩展至更大的草稿模型(如 Qwen3-8B 和 14B)。
  • 同一时期,DeepSeek 也在积极招人,包括清华大学博士生顾煜贤(苹果博士奖学金获得者)的加入,其研究方向涵盖模型压缩与高效架构,与 DSpark 等技术形成协同。
2026年7月5日来源:综合整理