最近 DeepSeek 悄悄上线了一个叫 DSpark 的东西,把科技圈整震惊了。
半自回归架构
并行主干(DFlash)快速生成草稿,轻量级顺序头(Markov/RNN)注入 token 间依赖,缓解后缀衰减
置信度调度验证
置信估算每个位置接受概率,硬件感知调度器动态裁剪低置信后缀,最大化系统吞吐
如果你用过 DeepSeek 的在线服务,你可能感觉最近响应更快了——没错,背后正是这个系统在驱动。官方数据显示,跟上一代生产基线 MTP-1 相比,每个用户的生成速度提升了 60%~85%。这不是 benchmark 上的数字游戏,是真实线上流量下跑出来的。
那 DSpark 到底解决了什么问题?为什么之前做不到?
先搞清楚:大模型慢在哪里
LLM 生成文字,本质上是一个 token 接一个 token 往外"蹦"的过程,每出一个字都要跑一次完整的模型前向计算。这就导致:输出越长,等你等得越久。
业界早就有一个经典解法叫推测解码(Speculative Decoding):用一个轻量"草稿模型"先猜几个 token,再让大模型一次性验证,接受猜对的部分。猜得越准,加速越明显。
但这里有两个长期悬而未解的难题:
问题一:草稿质量差 并行草稿模型(一次生成一整块 token)速度快,但它预测每个位置时根本不知道前面的 token 是什么,经常出现"of course / no problem"这种多模态混搭,变成"of problem"这种语义崩塌的情况。草稿越长,质量越差——这叫"后缀衰减"。
问题二:盲目验证拖累系统 并行草稿能一口气生成 16 个 token,但如果把这 16 个都送去大模型验证,高并发场景下大模型的计算资源就被这些"大概率会被拒绝的 token"白白占满了,整体吞吐量反而暴跌。
DSpark 的两把刀
第一把:半自回归生成(Semi-Autoregressive Generation)
思路非常聪明:不抛弃并行,但加上一个轻量的"依赖注入"模块。
具体来说,DSpark 用并行模型(DFlash)作为主干,跑一次前向计算生成所有位置的基础 logits,然后在后面接一个极轻的顺序头(Markov Head 或 RNN Head),在采样的时候把"前一个 token 是什么"这个信息注入进来,让后续 token 的预测不再是盲猜。
实验数据非常直观:在 Chat 任务上,DFlash 的条件接受率从位置 1 的 0.72 衰减到位置 7 的 0.63;而 DSpark 全程维持在高位且几乎不掉——序列头带来的顺序信息注入,成功抑制了后缀衰减。
更惊喜的是:仅 2 层的 DSpark,性能已经超过了 5 层的 DFlash。一点点自回归,价值巨大。
第二把:置信度调度验证(Confidence-Scheduled Verification)
这一刀是系统层面的。
DSpark 额外训练了一个置信度估计头,对每个草稿 token 预测一个"前缀存活概率"——也就是说,如果前面的 token 都通过了验证,这个位置的 token 还能活下来的概率是多少。
光有概率还不够,因为神经网络天生会过度自信。DeepSeek 引入了一个叫"顺序温度缩放(STS)"的校准方法,把预测概率和真实接受率对齐,把平均校准误差从 3%~8% 压到了约 1%。
然后,硬件感知调度器(Hardware-Aware Prefix Scheduler)登场:它综合考虑当前系统负载、每个 token 的生存概率,动态决定每个请求该验证几个 token。轻负载时大胆多验证,高并发时果断剪掉低置信后缀——验证预算从 MTP-1 的固定 2 个 token,动态扩展到 4~6 个(轻载),但高并发时自动收缩。
这套机制有一个数学上必须解决的难题:不能提前偷看未来 token,否则会破坏无损推测解码的理论保证。论文附录专门给出了反例证明——一旦放开这个约束,输出分布就会漂移,不再等价于大模型的真实分布。DSpark 通过异步调度(使用两步前的历史预测来确定裁剪长度)巧妙绕开了这个问题。
线上部署:真实流量验证
DSpark 已经实际部署在 DeepSeek-V4-Flash(preview)和 DeepSeek-V4-Pro(preview)的生产服务中,并于 V4 预览版发布两周后完全替换了 MTP-1。
几个关键数据:
在适中 SLA(80 tok/s/user)下,V4-Flash 总吞吐提升 51%;
在严格 SLA(120 tok/s/user)下,MTP-1 已经接近崩溃,DSpark 名义上吞吐高出 661%——更重要的意义是,它把这个 SLA 档位从"不可能完成"变成了"正常运行";
在相当的吞吐水平下,每用户生成速度快了 60%~85%(V4-Flash)和 57%~78%(V4-Pro)。
这就是 DSpark 最核心的价值:不只是让单个用户更快,而是整体把服务的速度-吞吐 Pareto 边界往外推了一圈,让原本不可达的性能组合成为可能。
开源了吗?
是的。DeepSeek 同步开源了 DSpark 的检查点,以及一个名为 DeepSpec 的算法驱动训练仓库,包含 Eagle3、DFlash 和 DSpark 三套实现。对做推理加速研究或工程落地的人来说,值得关注。
最后
DSpark 的设计思路有一种工程美感:不追求大而全,而是精准定位了两个核心瓶颈,用最小的架构改动解决最大的实际问题。半自回归头几乎没有额外延迟(实验显示 draft 长度从 4 扩到 16,端到端延迟只增加 0.6%~1.3%),但接受长度提升了 30%。这种"四两拨千斤"的感觉,是工程上最难得的。
当然,它也不完美。论文末尾自己承认:对于那些接受率本身就很低的复杂请求(比如高难度推理),并行草稿阶段的计算是铁定浪费的,目前没有办法跳过。未来如果能做到"难度感知的提前退出",还有进一步优化空间。
但就现阶段而言,DSpark 已经是推测解码领域相当完整的工程实践——算法、系统、校准、部署,每一层都有认真对待。











