DeepSeek开放DSpark加速组件：模型没变，生成速度为何能提高

2026年6月28日，DeepSeek官方DeepSpec仓库更新并加入DSpark检查点，面向DeepSeek-V4-Flash与V4-Pro提供投机解码支持。官方特别说明，DSpark不是一款新模型，而是在原有模型旁增加一个负责“提前猜测”的草稿模块，目标是在不改变主模型输出分布的前提下缩短生成等待时间。

它如何让同一个模型跑得更快

常规自回归生成需要主模型逐个预测下一个Token，每一步都要完成一次昂贵计算。投机解码则先让更轻量的草稿模块批量提出候选，再由主模型并行验证；猜对的部分可以一次接收，猜错时仍由主模型纠正。因此，加速来自减少主模型的串行步骤，而不是降低答案质量或把模型量化得更小。

DSpark采用半自回归生成方式，把并行骨干与轻量顺序头结合起来。官方材料给出的生产数据是：在DeepSeek-V4-Flash上，相比MTP-1基线，每用户生成速度提高60%至85%；V4-Pro提高57%至78%。这些数字是特定硬件、批量和服务配置下的官方结果，不能直接换算成所有部署的固定提速比例。

开放的不只是两个检查点

DeepSpec是完整的训练与评估代码库，包含DSpark、DFlash和Eagle3等投机解码方案，并提供数据处理、训练和评测组件，采用MIT许可证。配套的V4-Flash-DSpark与V4-Pro-DSpark检查点也已在DeepSeek官方Hugging Face空间提供。

这意味着有大规模推理需求的团队可以复现训练方法，而不只是下载一个封装好的加速文件。不过门槛并没有消失：V4本身规模很大，部署仍需要高显存、多卡通信与推理框架适配；草稿模块还会占用额外显存，最终收益取决于候选接受率、请求并发和输出长度。

对普通API用户有什么影响

普通用户不需要改变提示词，也不能仅凭开源检查点认定官方API已经全面启用DSpark。真正可感知的价值是更低的首批输出等待和更高的单用户生成速度，但是否反映到价格与限流仍取决于服务商。对自建团队，建议先在自己的典型请求上对比每秒Token、P95延迟、显存占用和答案一致性，再决定是否切换。

官方来源

DeepSeek官方DeepSpec仓库；DeepSeek-V4-Flash-DSpark官方模型页。

DeepSeek开放DSpark加速组件：模型没变，生成速度为何能提高

它如何让同一个模型跑得更快

开放的不只是两个检查点

对普通API用户有什么影响

官方来源

相关文章

Grok 4.5进入SpaceX与特斯拉私测：先看三项不确定性

Apple Vision Pro负责人转投OpenAI：AI硬件争夺转向工程人才

MWC 上海办机器人点球赛：具身智能走向公开考场

Codex 支持 Windows 控制：AI编程代理开始跨端协作

推荐工具

DeepSeek开放DSpark加速组件：模型没变，生成速度为何能提高

它如何让同一个模型跑得更快

开放的不只是两个检查点

对普通API用户有什么影响

官方来源

相关文章

Grok 4.5进入SpaceX与特斯拉私测：先看三项不确定性

Apple Vision Pro负责人转投OpenAI：AI硬件争夺转向工程人才

MWC 上海办机器人点球赛：具身智能走向公开考场

Codex 支持 Windows 控制：AI编程代理开始跨端协作

推荐工具

提交AI工具

请确认提交信息