ITBear旗下自媒体矩阵:

DeepSeek开源DSpark框架:破解AI“挤牙膏”难题,推理加速再升级

   时间:2026-06-28 09:11:52 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

近日,专注于大模型研发的DeepSeek与北京大学研究团队联合发布了一项重要成果——新型推理加速框架DSpark,相关论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》已在学术平台公开。该技术已应用于DeepSeek-V4-Flash preview和DeepSeek-V4-Pro preview的生产服务系统,并取代了原有的MTP-1方案。据实测数据显示,在系统总吞吐量持平的条件下,DSpark使DeepSeek-V4-Flash的单用户生成速度提升60%-85%,V4-Pro版本提升57%-78%,显著优化了高交互场景下的用户体验。

传统语言模型普遍采用自回归生成方式,每个新token的生成都依赖前文计算结果,导致输出长度增加时解码延迟显著累积。这种特性在实时对话、多轮智能体工作流等场景中尤为突出,既影响用户感知也降低GPU利用率。为突破这一瓶颈,学术界提出了推测解码技术,其核心思路是通过轻量级草稿模型预先生成候选token序列,再由主模型批量验证,从而减少主模型的前向计算次数。然而现有方案存在明显缺陷:自回归草稿模型虽能保证候选质量,但生成速度受限;并行草稿模型虽快,却容易产生语义不连贯的组合,导致后续token被拒率随长度增加而急剧上升。

针对这些痛点,DSpark创新性地采用半自回归架构。该架构在保留并行计算优势的基础上,通过引入轻量级顺序模块增强候选序列的内部关联性。具体而言,系统先利用并行网络快速生成初始候选,再通过马尔可夫头或RNN头对相邻token的衔接关系进行局部修正。实验表明,这种设计在数学推理、代码生成等结构化任务中效果显著,候选token的平均接受长度较纯并行方案提升16%-18%,较自回归方案提升26%-30%。

在验证环节,DSpark引入了基于置信度的动态调度机制。系统会为每个候选位置预测置信分数,反映在当前位置前序token均被接受的前提下,该位置继续被接受的概率。硬件感知前缀调度器则根据实时系统负载、置信度分布及吞吐曲线,动态调整每个请求的验证长度。当系统资源充裕时,优先验证高置信度请求的更长前缀;负载高峰时,则缩短低置信度请求的验证长度,避免无效计算占用批处理容量。这种设计使DSpark在不同并发场景下均能保持稳定性能,在线上测试中,V4-Flash在80 token/s/user的服务目标下,系统总吞吐量提升51%;在120 token/s/user的严苛条件下,名义吞吐优势达661%。

离线实验覆盖了Qwen3-4B、Qwen3-8B、Qwen3-14B和Gemma4-12B四个主模型,测试场景包括数学推理、代码生成和日常对话。结果显示,DSpark在宏平均接受长度指标上全面领先:数学任务达5.57,代码任务5.12,对话任务3.49。结构对比实验进一步验证了设计有效性——2层DSpark模型的性能已超越5层并行草稿模型,且随着候选长度从4扩展至16,其优势持续扩大。延迟测试表明,顺序模块带来的额外开销极小,在batch size 128条件下,单轮延迟仅增加0.2%-1.3%,但接受长度提升最高达30%。

目前,DeepSeek已开源DSpark的模型权重及配套训练代码库DeepSpec,包含Eagle3、DFlash和DSpark三种推测解码方案的完整实现。这一举措将推理加速领域的竞争从单纯的模型结构创新推向系统级优化阶段。行业分析指出,随着大模型应用场景向高并发、低延迟方向延伸,单纯追求模型参数规模已不足以建立竞争优势,如何通过软硬件协同优化提升推理效率,将成为决定产品市场表现的关键因素。DeepSeek此次开源不仅提供了可复用的技术方案,更揭示了生产环境部署中需要考虑的复杂变量,为行业树立了新的参考标准。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version