滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

DeepSeek联合北大发布DSpark：大模型推理加速新突破，让AI输出更流畅

时间：2026-06-28 14:27:16 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能领域持续深耕的DeepSeek，近日联合北京大学团队发布了一项重要研究成果——大模型推理加速框架DSpark，并同步公开了相关论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》。这一创新成果已成功应用于DeepSeek-V4-Flash preview和DeepSeek-V4-Pro preview的生产服务系统，替代了原有的MTP-1方案。

在真实线上用户流量测试中，DSpark展现出显著的性能提升。在系统总吞吐水平保持不变的情况下，DeepSeek-V4-Flash的单用户生成速度提高了60%至85%，DeepSeek-V4-Pro的单用户生成速度也提升了57%至78%。这一突破性进展为大模型推理加速领域带来了新的解决方案。

当前主流语言模型在生成文本时普遍采用自回归方式，即每生成一个新token都需要进行一次前向计算。这种方式在输出较长文本时会导致解码步骤增多，延迟累积，特别是在实时聊天、多轮智能体工作流和代码助手等高交互场景中，生成速度直接影响用户体验和GPU利用率。为解决这一问题，推测解码技术应运而生。

推测解码的工作原理类似于"小模型打草稿，大模型审稿"的协作模式。系统先使用轻量级草稿模型生成候选token序列，再由目标模型一次性验证这些候选token。通过验证的token被接受，被拒绝位置的后续候选token全部作废，由目标模型生成修正token。由于验证阶段可以并行处理，这种技术能够在不改变目标模型输出分布的前提下提高生成速度。

尽管推测解码已成为大模型推理加速的重要方向，但现有方案仍存在明显局限。自回归草稿模型虽然生成的候选内容前后关系自然、质量较高，但生成过程需要逐步进行，候选token越多，草稿阶段耗时越长。并行草稿模型虽然能够一次性生成多个候选token，速度快且适合生成长候选块，但候选块内部token缺乏足够依赖关系，容易出现前后不一致的组合，导致后缀衰减现象。

DSpark框架通过创新设计同时解决了这两个问题。在生成侧，DSpark采用半自回归架构，在保留并行草稿模型主干实现大部分计算一次完成的同时，在输出端加入轻量级顺序模块，使后续token能够参考前面已采样的token。这种设计既保持了并行草稿模型的速度优势，又补充了部分自回归草稿模型的前后连贯性。

在验证侧，DSpark引入了基于置信度调度的验证机制。系统为每个候选位置预测置信度分数，表示在当前位置前面token都被目标模型接受的情况下，该位置继续被接受的概率。硬件感知前缀调度器会根据系统负载、候选位置置信度和引擎在不同批大小下的吞吐曲线，动态决定每个请求应验证的token数量。

离线实验结果显示，在Qwen3-4B、Qwen3-8B、Qwen3-14B和Gemma4-12B四个目标模型上，DSpark相比自回归草稿模型Eagle3的宏平均接受长度分别提升了30.9%、26.7%和30.0%，相比并行草稿模型DFlash分别提升了16.3%、18.4%和18.3%。在Gemma4-12B模型上，DSpark同样保持领先优势。

实验还发现，不同任务类型对候选token的接受率存在显著差异。以Qwen3-4B模型为例，数学任务的平均接受长度为5.57，代码任务为5.12，而聊天任务仅为3.49。这表明数学和代码等结构化任务的续写路径更稳定，而聊天等开放式任务的合理回答方式更多，相同长度的候选token在不同任务中的价值存在差异。

在线上部署测试中，DSpark展现了更强的适应性。面对中等并发请求时，DSpark会将验证预算从MTP-1的静态2个token扩展到4至6个token，使每次前向计算产生更多有效输出。当并发量升高导致目标模型接近饱和时，DSpark会自动缩短低置信度请求的验证长度，减少对批处理容量的占用。

具体测试数据显示，在DeepSeek-V4-Flash的生产引擎中，当服务目标为80 token/s/user时，DSpark相比MTP-1使系统总吞吐提升了51%；在更严格的120 token/s/user目标下，MTP-1已接近承载极限，而DSpark的名义吞吐优势达到661%。DeepSeek-V4-Pro的测试结果呈现类似趋势，在35 token/s/user目标下总吞吐提升52%，在50 token/s/user严格目标下名义吞吐优势达406%，使单用户生成速度提升了57%至78%。

DeepSeek不仅开放了DSpark的模型权重，包括DeepSeek-V4-Flash preview和DeepSeek-V4-Pro preview对应的模型检查点，还开源了面向推测解码训练的代码库DeepSpec，其中包含Eagle3、DFlash和DSpark等实现。这一举措为大模型推理加速领域的发展提供了重要支持，推动了行业技术进步。

更多>同类资讯

AI记录打工人的24小时：凌晨失眠求助，傍晚焦虑晚餐，周末怀揣创业梦

06-28

Anthropic调研：Claude用户眼中AI成工作好帮手协同未来受期待

06-28

OpenAI携手Broadcom推出Jalapeno芯片专攻大语言模型推理新赛道

作为ChatGPT和Codex等产品的背后推手，该公司致力于掌控其模型与产品所依赖的完整技术栈，从而降低对英伟达等外部供应商的依赖，并通过垂直整合在性能或效率上获得潜在优势。 A：根据OpenAI和Broad…

06-28

Adobe强化AI布局：收购Topaz Labs，整合技术提升创意软件生态竞争力

此次收购完成后，Adobe计划将Topaz的AI模型进一步整合至FireflyAI应用及其他图像与视频编辑产品中，同时也将通过官网继续提供Topaz旗下产品的独立服务。 A：收购完成后，Topaz Labs…

06-28

苹果Vision Pro项目核心高管保罗·米德下周离职，将转投OpenAI硬件部门

最近一段时间，他主要负责推进 AI 智能眼镜项目，并领导 AR 眼镜开发团队。现任 Vision Pro 与智能眼镜产品设计负责人弗莱彻 ·罗斯科夫（IT之家注：Fletcher Rothkopf）将接手他…

06-28

深圳“智造者大会”展新篇：微型传感器赋能机器人“触觉”升级

华力创科学的方案，就是把传感器“微缩”到了8.5毫米直径、最薄仅5毫米，像一颗纽扣大小，却能感知多维力变化。最新的Photon Finger tip则更进一步，把“刚性力觉”和“柔性电子皮肤”融合在一起，真正…

06-28

荣耀Robot Phone机器人手机8月将至研发历经一年打磨且后续计划迭代升级

IT之家 6 月 28 日消息，博主 @旺仔百事通昨晚发文透露，称荣耀 Robot Phone 机器人手机将在 8 月上市。有网友询问这台手机后续是否还会迭代，博主明确表示：“会。” 荣耀机器人手机 Ro…

06-28

开源程序新创意：Steam手柄“变身”自动充电小能手震动寻底座超便捷

IT之家 6 月 28 日消息，一名航空航天从业者兼程序员在 GitHub 上发布了一款程序，只要把 Steam手柄放在桌面，它就能自动朝着充电底座缓慢移动。此前已有其他程序员制作过同类创意网页工具，利用…

06-28

共启AI Token新生态：中国电信国际伙伴大会聚力，共绘全球智能新蓝图

本次大会标志着OneGrowth全球合作计划完成了从生态搭建到细分赛道深耕的战略进阶，中国电信将持续发挥云网融合、跨境广覆盖的独特优势，秉持“共创、共享、共治、共赢”核心合作理念，筑算力根基、拓云网骨干、创…

06-28

AI浪潮席卷通信业：从“卖连接”到“卖智能”，新价值如何破局？

一位通信设备厂商的技术负责人对第一财经记者表示，从经营流量到经营Token，包括运营商在内的通信产业链玩家不再甘于只做个连接服务商。“过去几年，5G提供了差异化服务的机会，但真正完成5G独立组网、能够把网络能…

06-28

吉林建科携手华为共探数智人才培养新路径助力区域数字经济高质量发展

央广网长春6月27日消息（记者张学龙）26日，由华为技术有限公司主办、吉林建筑科技学院承办的“数智赋能·人才兴吉——2026产教融合创新发展论坛暨华为院校人才培养论坛”在吉林建筑科技学院国际会议交流中心举行。…

06-28

神舟二十三乘组在轨满月：科研稳步推进，太空生活丰富还吃上了烤南瓜

06-28

荣耀Robot Phone机器人手机8月将至研发艰辛后续迭代引期待

06-28

程序员脑洞大开！开源程序助力Steam手柄“震动爬行”自动归位充电

06-28

神舟二十三乘组在轨满月：太空实验稳步推进航天员享烤南瓜美食

06-28

点击查看更多 +

全站最新

新能源商用车+智能运营：物流行业绿色数智转型的苏州探索

智美大五座豪华SUV来袭！阿维塔07L明日直播揭秘鸿蒙座舱内饰

AI浪潮席卷通信业：从“卖连接”到“卖智能”，新价值如何破局？

吉林建科携手华为共探数智人才培养新路径助力区域数字经济高质量发展

科大讯飞P30 Turbo学习机：护眼AI双加持，助力孩子高效学习新选择

启境GT7入局车市内卷红海，性价比与配置能否助其破局突围？

热门内容

本栏最新

AI浪潮席卷通信业：从“卖连接”到“卖智能”，新价值如何破局？

吉林建科携手华为共探数智人才培养新路径助力区域数字经济高质量发展

尊界S800典藏大观亮相：余承东“双态”发布，中国超豪华车新征程启幕

敦煌大漠燃情夜：许巍助阵捷途“方盒子”燃油插混双车闪耀登场

360潘剑锋：智能体时代安全新范式，聚焦驾驭AI不确定性难题

华为赵振龙：AI驱动自智网络双核心演进，无线网络智能体引领行业新未来

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.