滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

DeepSeek推理提速80%，DSpark到底做对了什么？

时间：2026-06-28 16:57:48 来源：人工智能研究所编辑：快讯 IP：北京 发表评论无障碍通道

最近 DeepSeek 悄悄上线了一个叫 DSpark 的东西，把科技圈整震惊了。

半自回归架构

并行主干（DFlash）快速生成草稿，轻量级顺序头（Markov/RNN）注入 token 间依赖，缓解后缀衰减

置信度调度验证

置信估算每个位置接受概率，硬件感知调度器动态裁剪低置信后缀，最大化系统吞吐

如果你用过 DeepSeek 的在线服务，你可能感觉最近响应更快了——没错，背后正是这个系统在驱动。官方数据显示，跟上一代生产基线 MTP-1 相比，每个用户的生成速度提升了 60%~85%。这不是 benchmark 上的数字游戏，是真实线上流量下跑出来的。

那 DSpark 到底解决了什么问题？为什么之前做不到？

先搞清楚：大模型慢在哪里

LLM 生成文字，本质上是一个 token 接一个 token 往外"蹦"的过程，每出一个字都要跑一次完整的模型前向计算。这就导致：输出越长，等你等得越久。

业界早就有一个经典解法叫推测解码（Speculative Decoding）：用一个轻量"草稿模型"先猜几个 token，再让大模型一次性验证，接受猜对的部分。猜得越准，加速越明显。

但这里有两个长期悬而未解的难题：

问题一：草稿质量差并行草稿模型（一次生成一整块 token）速度快，但它预测每个位置时根本不知道前面的 token 是什么，经常出现"of course / no problem"这种多模态混搭，变成"of problem"这种语义崩塌的情况。草稿越长，质量越差——这叫"后缀衰减"。

问题二：盲目验证拖累系统并行草稿能一口气生成 16 个 token，但如果把这 16 个都送去大模型验证，高并发场景下大模型的计算资源就被这些"大概率会被拒绝的 token"白白占满了，整体吞吐量反而暴跌。

DSpark 的两把刀

第一把：半自回归生成（Semi-Autoregressive Generation）

思路非常聪明：不抛弃并行，但加上一个轻量的"依赖注入"模块。

具体来说，DSpark 用并行模型（DFlash）作为主干，跑一次前向计算生成所有位置的基础 logits，然后在后面接一个极轻的顺序头（Markov Head 或 RNN Head），在采样的时候把"前一个 token 是什么"这个信息注入进来，让后续 token 的预测不再是盲猜。

实验数据非常直观：在 Chat 任务上，DFlash 的条件接受率从位置 1 的 0.72 衰减到位置 7 的 0.63；而 DSpark 全程维持在高位且几乎不掉——序列头带来的顺序信息注入，成功抑制了后缀衰减。

更惊喜的是：仅 2 层的 DSpark，性能已经超过了 5 层的 DFlash。一点点自回归，价值巨大。

第二把：置信度调度验证（Confidence-Scheduled Verification）

这一刀是系统层面的。

DSpark 额外训练了一个置信度估计头，对每个草稿 token 预测一个"前缀存活概率"——也就是说，如果前面的 token 都通过了验证，这个位置的 token 还能活下来的概率是多少。

光有概率还不够，因为神经网络天生会过度自信。DeepSeek 引入了一个叫"顺序温度缩放（STS）"的校准方法，把预测概率和真实接受率对齐，把平均校准误差从 3%~8% 压到了约 1%。

然后，硬件感知调度器（Hardware-Aware Prefix Scheduler）登场：它综合考虑当前系统负载、每个 token 的生存概率，动态决定每个请求该验证几个 token。轻负载时大胆多验证，高并发时果断剪掉低置信后缀——验证预算从 MTP-1 的固定 2 个 token，动态扩展到 4~6 个（轻载），但高并发时自动收缩。

这套机制有一个数学上必须解决的难题：不能提前偷看未来 token，否则会破坏无损推测解码的理论保证。论文附录专门给出了反例证明——一旦放开这个约束，输出分布就会漂移，不再等价于大模型的真实分布。DSpark 通过异步调度（使用两步前的历史预测来确定裁剪长度）巧妙绕开了这个问题。

线上部署：真实流量验证

DSpark 已经实际部署在 DeepSeek-V4-Flash（preview）和 DeepSeek-V4-Pro（preview）的生产服务中，并于 V4 预览版发布两周后完全替换了 MTP-1。

几个关键数据：

在适中 SLA（80 tok/s/user）下，V4-Flash 总吞吐提升 51%；

在严格 SLA（120 tok/s/user）下，MTP-1 已经接近崩溃，DSpark 名义上吞吐高出 661%——更重要的意义是，它把这个 SLA 档位从"不可能完成"变成了"正常运行"；

在相当的吞吐水平下，每用户生成速度快了 60%~85%（V4-Flash）和 57%~78%（V4-Pro）。

这就是 DSpark 最核心的价值：不只是让单个用户更快，而是整体把服务的速度-吞吐 Pareto 边界往外推了一圈，让原本不可达的性能组合成为可能。

开源了吗？

是的。DeepSeek 同步开源了 DSpark 的检查点，以及一个名为 DeepSpec 的算法驱动训练仓库，包含 Eagle3、DFlash 和 DSpark 三套实现。对做推理加速研究或工程落地的人来说，值得关注。

最后

DSpark 的设计思路有一种工程美感：不追求大而全，而是精准定位了两个核心瓶颈，用最小的架构改动解决最大的实际问题。半自回归头几乎没有额外延迟（实验显示 draft 长度从 4 扩到 16，端到端延迟只增加 0.6%~1.3%），但接受长度提升了 30%。这种"四两拨千斤"的感觉，是工程上最难得的。

当然，它也不完美。论文末尾自己承认：对于那些接受率本身就很低的复杂请求（比如高难度推理），并行草稿阶段的计算是铁定浪费的，目前没有办法跳过。未来如果能做到"难度感知的提前退出"，还有进一步优化空间。

但就现阶段而言，DSpark 已经是推测解码领域相当完整的工程实践——算法、系统、校准、部署，每一层都有认真对待。

更多>同类资讯

“77万条未读消息”背后，是技术缺失的温度

06-28

梁文锋署名的DSpark，看懂这10个点就够了

06-28

管制有望放宽 Anthropic Fable 5最快下周恢复公众访问

06-28

iOS 27深化与Apple Intelligence整合 1H27新款低阶iPhone DRAM升级至9GB

06-28

卡萨帝：20年坚守“慢哲学”，以长期主义铸就高端引领传奇

06-28

第五届数字信任大会聚焦AI融合发布双文件助力数智信任体系构建

06-28

存储行业景气上行晶圆扩产与长协驱动半导体市场持续向好

06-28

神舟二十三乘组在轨满月：科学实验稳步推进太空生活添新趣吃上烤南瓜

IT之家从视频获悉，在轨脑电测试研究相关实验进展顺利，三名航天员利用脑电采集设备开展视觉运动、加工照明、行为反应等多项实验测试。在健康管理方面，乘组使用中医四诊仪采集相关数据信息，为科研人员实施航天员长期…

06-28

神舟二十三号乘组在轨满月：空间实验稳步推进太空生活精彩纷呈

神二十三号乘组和机器人“小航”进行互动，开展触碰交互测试，采集相关数据用于优化后续在轨机器人运动行为规划方法。三名航天员利用脑电采集设备开展视觉运动加工、照明行为反应等多项实验测试，地面科研人员将依托下行数…

06-28

OpenAI携手Broadcom推出Jalapeno芯片专为数据中心大语言模型推理量身定制

作为ChatGPT和Codex等产品的背后推手，该公司致力于掌控其模型与产品所依赖的完整技术栈，从而降低对英伟达等外部供应商的依赖，并通过垂直整合在性能或效率上获得潜在优势。 A：根据OpenAI和Broad…

06-28

党彦宝亮相2026夏季达沃斯，畅谈材料创新与AI赋能煤基材料新未来

党彦宝讲到，材料是引领时代变革和推动社会发展的重要支撑，要从市场、科研、成本三个维度系统发力，才能全方位重塑产业发展底座。绿色化研发往往伴随成本上升的现实挑战，实现科研创新与成本可控的有机平衡，是必须破解的…

06-28

Token为王时代：火山引擎豆包大模型如何以质变引领MaaS新赛道？

不难看出，火山引擎在性能与成本之间找到最佳平衡点，豆包大模型2.1系列也不例外。届时，衡量企业智能化程度的核心指标，将从其拥有的GPU数量转变为消耗的Token总量，因为它是唯一能同时穿透‘模型能力、使用频率…

06-28

DeepSeek V4引入DSpark框架：工程创新推动大模型推理效率显著跃升

06-28

神舟二十三乘组在轨满月：科研生活两不误太空吃烤南瓜享别样体验

06-28

北大携手DeepSeek开源DSpark框架，破解大模型推理难题提升交互体验

06-28

点击查看更多 +

全站最新

原生设计破局空间难题 20秒成床广汽华为联手启境GX7开启大五座新篇

长安启源Q05乌兹别克斯坦上市携手共建绿色交通生态助力产业升级

33天铸就传奇！新中国首辆高级轿车即将在中国一汽博物馆展出

鸿蒙智行尊界SUV谍照新曝光，家族式设计延续，尾灯方案引关注

氢能两轮车崭露头角：补足锂电短板，多元出行拼图正成型

法拉利Luce亚洲首秀浦江畔：以纯电之姿，开启超跑电动化新征程

热门内容

本栏最新

AI浪潮席卷通信业：从“卖连接”到“卖智能”，新价值如何破局？

吉林建科携手华为共探数智人才培养新路径助力区域数字经济高质量发展

尊界S800典藏大观亮相：余承东“双态”发布，中国超豪华车新征程启幕

敦煌大漠燃情夜：许巍助阵捷途“方盒子”燃油插混双车闪耀登场

360潘剑锋：智能体时代安全新范式，聚焦驾驭AI不确定性难题

华为赵振龙：AI驱动自智网络双核心演进，无线网络智能体引领行业新未来

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.