DeepSeek团队近日宣布推出全新投机解码框架DSpark,并同步开源全栈推测性解码系统DeepSpec。此次更新聚焦于工程优化,通过在现有DeepSeek-V4-Pro模型中嵌入推测性解码模块,显著提升了大语言模型(LLM)的推理效率。该技术已部署于DeepSeek-V4 Flash和Pro版本的线上服务,在保持模型性能不变的前提下,实现了推理速度的突破性提升。
DSpark框架的核心创新在于融合了并行生成与自适应验证机制。通过引入轻量级草稿模型预先生成候选token,再由主模型进行批量验证,将传统串行生成模式转变为并行处理。该框架特别设计了半自回归生成架构,在保留并行计算优势的同时,通过轻量级串行模块捕捉token间的依赖关系,有效解决了并行模型在长序列生成中接受率下降的问题。技术团队开发的硬件感知置信度调度系统,能够根据实时算力负载动态调整验证长度,确保计算资源优先分配给高置信度token,避免了无效计算浪费。
在工程实现层面,DSpark调度器采用异步设计,完美兼容零开销调度(ZOS)和CUDA图回放技术。通过利用历史预测数据动态确定截断长度,该系统成功隐藏了调度延迟,防止GPU流水线停滞,同时确保主模型输出分布的完整性。测试数据显示,在数学推理、代码生成和对话等任务中,DSpark的平均接受长度较Eagle3提升26.7%-30.9%,较DFlash提升16.3%-18.4%。与前代单token生产基准相比,用户生成速度在Flash模型上提升60%-85%,Pro模型上提升57%-78%。
开源的DeepSpec系统为推测性解码研究提供了完整工具链,涵盖数据准备、模型训练和效果评估三个阶段。数据准备模块支持自动构建目标缓存,以Qwen3-4B模型为例需约38TB存储空间。训练系统采用分布式架构,默认配置支持单节点8卡环境,用户可通过配置文件灵活调整参数。评估模块集成GSM8K、Humaneval等10个权威基准测试集,覆盖数学、代码、对话等多个领域,可全面衡量草稿模型的性能表现。
目前DeepSpec已内置DSpark、DFlash和Eagle3三种草稿模型算法,支持Qwen3和Gemma两大目标模型系列。该系统的开源将改变推测性解码领域的研究范式,研究人员可直接基于标准化框架开发定制化草稿模型,无需重复搭建底层基础设施。项目代码库包含详细的数据处理脚本、训练配置模板和评估工具,为社区提供了可复现的技术实现方案。
技术文档显示,DSpark框架在保持模型输出质量的同时,通过优化计算资源分配实现了效率跃升。其创新的置信度调度机制可根据硬件状态实时调整验证策略,这种动态适应能力使其在复杂生产环境中表现出色。随着DeepSpec的开源,推测性解码技术有望从实验室研究快速转化为行业实践,为大模型应用落地提供新的加速解决方案。









