滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

DeepSeek又变强了，推理速度最高提升85%

时间：2026-06-27 21:00:34 来源：鞭牛士编辑：快讯 IP：北京 发表评论无障碍通道

今日，DeepSeek推出全新的推测解码（Speculative Decoding）框架DSpark，并已在V4系列模型上使用。

该技术在保持生成文本分布完全无损（Lossless）的前提下，成功突破了大语言模型（LLM）在高并发生产环境中的推理性能瓶颈，实测数据显示，其单用户生成速度较现有主流方案最高提升85%。

随着大模型参数量的指数级增长，推理延迟和算力成本已成为制约AI应用落地的核心痛点。

尽管推测解码技术通过“小模型起草、大模型验证”的机制在一定程度上缓解了这一问题，但业界始终面临两难选择：要么使用自回归草稿模型（如Eagle3）以保证准确率但牺牲速度，要么使用并行草稿模型（如DFlash）以提升速度但牺牲长序列的接受率。

针对这一行业难题，DSpark提出了两大创新机制，实现了速度与质量的完美平衡。

核心技术一

半自回归生成，兼顾速度与连贯性

DSpark首创了“半自回归生成”架构（Semi-Autoregressive Generation）。

它摒弃了传统单一维度的生成方式，将草稿构建分为两步：

并行骨架：利用并行的DFlash骨干网络，像以前一样快速生成多个候选token的基础特征，确保极低的延迟。

顺序精修：引入轻量级的“马尔可夫头（Markov Head）”或“RNN头”，为这些并行生成的token注入上下文依赖关系。这就好比先快速勾勒出文章的骨架，再对局部逻辑进行微调，有效避免了并行模型在长序列末尾出现的“语义漂移”或“多模态碰撞”问题。

核心技术二置信度调度验证，拒绝算力浪费

DSpark还在验证端进行了智能化升级。传统的推测解码往往盲目地将整段草稿发送给大模型验证，容易造成计算资源的浪费。

DSpark引入了置信度头（Confidence Head），它能预测每个草稿token在给定前缀下的“存活概率”。结合硬件感知调度器，系统可以动态调整每个请求的验证长度，优先处理那些最有可能被接受的token。

这种“好钢用在刀刃上”的策略，极大地提升了GPU的整体吞吐效率。

单用户速度飙升，吞吐量大幅跃升

在多项严苛的基准测试中，DSpark展现了惊人的性能表现：

在数学推理、代码生成及日常对话任务中，DSpark相比当前SOTA的自回归方案Eagle3平均提升26.7%~30.9%的接受长度；相比并行方案DFlash提升16.3%~18.4%。

在真实的线上部署中，DSpark 的表现更为亮眼：

DSpark的两个变体（V4-Flash与V4-Pro）均取得了突破性进展。在匹配相同吞吐量的前提下，DeepSeek-V4-Flash 的单用户生成速度提升了 60% 至 85%，Pro 版本则提升了 57% 至 78%。

更关键的是，DSpark 成功避免了在高并发严格交互延迟约束下系统吞吐量的断崖式下跌，推高了服务系统的性能边界。

开源全栈工具链 DeepSpec

为了让更多开发者和企业受益于这一先进技术，研究团队宣布开源DSpark的相关资源，目前已发布DeepSeek-V4-Flash (preview) 和 DeepSeek-V4-Pro (preview) 的预训练检查点。

同时推出DeepSpec训练库，这是一个算法驱动的推测解码工具包，支持DSpark、DFlash及Eagle3的训练与评估。

DSpark的发布不仅是推测解码技术的一次重大迭代，更为大规模AI服务的商业化落地提供了强有力的技术支撑。

更多>同类资讯

一盆冷水：99%的AI原生创业，根本没有护城河

06-27

高通新架构发力：数据中心芯片技术将赋能智能手机，端侧AI能力迎升级契机

06-27

AI原生创业热潮下的冷思考：多数应用缘何难筑护城河？

06-27

DeepSeek推出DSpark框架：突破推理瓶颈，实现速度与质量双飞跃

06-27

中国2030年前载人登月势在必行！四大关键意义，开启太空竞争新格局

更令人振奋的是中国科学家的新发现：过去普遍认为氦-3需要在700℃以上高温加热才能提取，但最新研究表明，通过机械破碎方式，有望在常温条件下释放以气泡形式存在的氦-3；同时月壤中的钛铁矿具备弱磁性，可通过磁选方…

06-27

AI项目成败关键何在？选对Token服务商，系统集成运维不再拖后腿

大模型进入企业应用深水区后，Token服务商的选择标准，已经从“能不能调用模型”，转向“调用成本是否可控、链路是否稳定、权限是否合规、业务能否真正落地”。下面选取两类市场上常见方案进行对比：一家偏企业集成与…

06-27

vivo X Fold6重磅登场：性能影像续航全面升级，7999元起售引关注

在充电和续航上，vivo X Fold6这款智能手机的电池容量为7000mAh，采用双电池并联设计，首发第五代硅负极技术搭配第三代半固态技术，并且，这款折叠屏手机还支持80W有线快充和40W无线快充，包装内…

06-27

苹果iPhone 18 Pro芯片A20 Pro新爆料：WMCM封装散热优，NPU强化内存升级

06-27

AI新赛道：Token经营时代，华为如何为运营商竞争力升级赋能？

06-27

皮革企业跨界“追光”：兴业科技布局磷化铟能否开启第二增长曲线？

06-27

郭明錤：苹果iPhone 18标准版首次搭载9GB内存

06-27

当Token成为新生产力，华为何以重塑运营商竞争力？

06-27

新华社推出AI时政资讯智能体“新华语典” 开启智能资讯新篇章

新华通讯社6月26日在北京正式发布权威AI时政资讯智能体——“新华语典”。顺应时代发展趋势，“新华语典”基于新华社数据、依托先进大模型技术，通过“高可靠内容人工智能”满足广大受众学习、研究、写作等需要，是一款…

06-27

OpenAI加速AI硬件布局：挖角苹果Vision Pro核心高管，AI手机量产或提前

为了加速这一进程，OpenAI不仅收购了前苹果设计总监乔尼·艾维（JonyIve）创立的AI硬件初创公司io，近期更是从苹果公司成功挖角其头显与智能眼镜项目核心高管Paul Meade，彰显了其打造全新“A…

06-27

DeepSeek大规模招聘：不拘一格揽人才，新人直面AGI核心研发挑战

对于想深耕AI、希望快速积累核心项目经验的求职者来说，这里能直接接触前沿AGI研发，不用从基础打杂做起，成长速度会更快。整体招聘规模很大，覆盖技术、产品、职能全链条，对在校生和想转行进入AI行业的人都比较…

06-27

点击查看更多 +

全站最新

家庭智能新选择：天猫精灵、小度X10 Ultra、小米Sound三款音箱大比拼

高通骁龙8E6系列9月登场：2nm工艺加持，小米18系列两款机型率先搭载

小米Sound Pro对比华为Sound X4：解锁AI音箱核心功能与音质新体验

小米智能音箱Pro和Sound Pro深度测评：帮你找到最适合的AI音箱之选

小米REDMI K90至尊版6月30日发布，游戏性能拉满，老机型电池升级服务也来了

手机市场迎涨价潮！刚需用户宜早入手，非刚需用户可静待价格回落

热门内容

本栏最新

敦煌大漠燃情夜：许巍助阵捷途“方盒子”燃油插混双车闪耀登场

360潘剑锋：智能体时代安全新范式，聚焦驾驭AI不确定性难题

华为赵振龙：AI驱动自智网络双核心演进，无线网络智能体引领行业新未来

国产存储系统闪耀ISC2026：国家超算互联网ParaStor双榜夺冠领跑全球

领益智造港股上市募资超82亿港元加速布局AI硬件新赛道

研究报告：生成式AI经济表现亮眼过去12个月销售额达1100亿美元

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.