返回资讯列表

框架

DeepSeek DSpark 技术被移植至苹果芯片，Mac 本地大模型加速最高 60%

DeepSeek 于 6 月 27 日开源的投机解码技术 DSpark，已被工程师 Abdur Rahim 移植至苹果芯片（Mac），项目名为 mlx-dspark。该移植版本支持 Gemma-4 12B 和 Qwen3-4B 模型，在 M4 Pro 上生成速度分别提升约 1.6 倍（从 18.4 tok/s 至约 30 tok/s）和约 1.4 倍（从 52.9 tok/s 至约 73 tok/s）。

技术原理与实现

DSpark 核心思路：使用一个小型草稿模型快速生成候选词，再由目标模型批量验证，通过则保留，否则重新生成。
苹果芯片上的成本差异：数据中心 GPU 的批量验证成本固定，而苹果芯片的验证成本随候选词数量线性增加。Rahim 实测 Gemma-4 12B 每多验证一个 token 需约 14 毫秒，并建立成本模型，得出理论加速上限约 2.2 倍。
实现细节：草稿模型从 HuggingFace checkpoint 提取，量化至 4-bit（仅 1.8GB），目标模型默认使用 8-bit 精度（bf16 验证成本更高，反而更慢）。

高精度还原与采样支持

多数本地移植仅支持贪婪解码，但 mlx-dspark 实现了论文中的温度采样方法，输出分布与目标模型严格一致，逐字节相同。
Rahim 发现：若草稿模型搭配未指令微调的基础版目标模型，候选词通过率仅 47%；换成指令微调版本后，通过率升至 82%。

集成 DFlash 方案

应 DFlash 论文作者 Jian Chen 请求，Rahim 将 DFlash 方案也集成至 mlx-dspark。DFlash 采用并行块扩散（一次生成 16 个 token），在代码和数学任务上加速比达约 2.1 倍（约 36 tok/s），优于 DSpark。
但在开放聊天场景中，DFlash 的接受长度受限，DSpark 反而更快。mlx-dspark v0.0.3 允许用户手动调整 DFlash 的有效块长度，以适配不同任务。

影响与展望

这是 DSpark 开源后的首个苹果芯片原生实现，使 Mac 用户无需依赖数据中心 GPU 即可享受加速。
Rahim 表示，该方法可扩展至更大的草稿模型（如 Qwen3-8B 和 14B）。
同一时期，DeepSeek 也在积极招人，包括清华大学博士生顾煜贤（苹果博士奖学金获得者）的加入，其研究方向涵盖模型压缩与高效架构，与 DSpark 等技术形成协同。

2026年7月5日来源：综合整理

deepseek dspark apple-silicon mlx speculative-decoding mac

相关资讯

DeepSeek 发布 DSpark 推理加速技术，V4 线上推理速度提升最高 85%

6月29日 · 综合整理

DeepSeek V4 更新 DSpark 投机解码框架，推理速度提升最高 85%

6月27日 · 综合整理

DeepSeek V4 正式版定档7月中旬，引入峰谷定价并发布推理加速框架 DSpark

6月30日 · 综合整理

DeepSeek识图功能全量上线：能批改作业但认错自家创始人

6月18日 · 综合整理

中国AI 2025：DeepSeek、百度文心与通义千问如何在出口管制下全球竞争

4月10日 · MIT Technology Review

DeepSeek V3 开源前沿级AI模型

5月20日 · DeepSeek GitHub

延伸阅读 · 相关教程

DeepSeek DSpark 与推测解码：大模型推理加速的核心技术解析

从半自回归生成到置信调度，深入理解 DSpark 如何在不牺牲质量的前提下提升推理吞吐

DeepSeek V3 API 完全指南 2026：设置、功能与最佳实践

使用 DeepSeek V3 构建生产级应用所需的一切

相关资源

浏览 Agent Hub 探索 MCP 专区查看更多资讯

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide