返回AI资讯
DeepSeek开放DSpark加速组件:模型没变,生成速度为何能提高

DeepSeek开放DSpark加速组件:模型没变,生成速度为何能提高

AI资讯 Admin 5 次浏览

2026年6月28日,DeepSeek官方DeepSpec仓库更新并加入DSpark检查点,面向DeepSeek-V4-Flash与V4-Pro提供投机解码支持。官方特别说明,DSpark不是一款新模型,而是在原有模型旁增加一个负责“提前猜测”的草稿模块,目标是在不改变主模型输出分布的前提下缩短生成等待时间。

它如何让同一个模型跑得更快

常规自回归生成需要主模型逐个预测下一个Token,每一步都要完成一次昂贵计算。投机解码则先让更轻量的草稿模块批量提出候选,再由主模型并行验证;猜对的部分可以一次接收,猜错时仍由主模型纠正。因此,加速来自减少主模型的串行步骤,而不是降低答案质量或把模型量化得更小。

DSpark采用半自回归生成方式,把并行骨干与轻量顺序头结合起来。官方材料给出的生产数据是:在DeepSeek-V4-Flash上,相比MTP-1基线,每用户生成速度提高60%至85%;V4-Pro提高57%至78%。这些数字是特定硬件、批量和服务配置下的官方结果,不能直接换算成所有部署的固定提速比例。

开放的不只是两个检查点

DeepSpec是完整的训练与评估代码库,包含DSpark、DFlash和Eagle3等投机解码方案,并提供数据处理、训练和评测组件,采用MIT许可证。配套的V4-Flash-DSpark与V4-Pro-DSpark检查点也已在DeepSeek官方Hugging Face空间提供。

这意味着有大规模推理需求的团队可以复现训练方法,而不只是下载一个封装好的加速文件。不过门槛并没有消失:V4本身规模很大,部署仍需要高显存、多卡通信与推理框架适配;草稿模块还会占用额外显存,最终收益取决于候选接受率、请求并发和输出长度。

对普通API用户有什么影响

普通用户不需要改变提示词,也不能仅凭开源检查点认定官方API已经全面启用DSpark。真正可感知的价值是更低的首批输出等待和更高的单用户生成速度,但是否反映到价格与限流仍取决于服务商。对自建团队,建议先在自己的典型请求上对比每秒Token、P95延迟、显存占用和答案一致性,再决定是否切换。

官方来源

DeepSeek官方DeepSpec仓库DeepSeek-V4-Flash-DSpark官方模型页

推荐工具

更多