ITBear旗下自媒体矩阵:

DeepSeek再发新论文,DualPath架构如何将推理吞吐量提升近2倍?

   时间:2026-02-28 03:25:48 来源:TechWeb编辑:快讯 IP:北京 发表评论无障碍通道
 

2月27日消息,就在外界翘首期盼DeepSeek-V4大模型发布之际,DeepSeek团队再次带来了一份技术惊喜。

论文开篇指出了一个重要趋势:LLM正在从单轮对话机器人演变为能够自主规划、调用工具、解决现实世界任务的Agentic系统。在这种新范式下,模型不再处理孤立的提示词,而是参与长达数十甚至数百轮的长期会话,上下文不断累积。

这种变化带来了全新的计算特征:高KV-Cache(键值缓存)命中率、低计算需求。论文中的数据显示,在典型的编码任务轨迹中,平均轮次达到157轮,平均上下文长度32.7K tokens,而每次追加的平均长度仅429 tokens,这意味着KV-Cache命中率高达98.7%。

这种“长上下文、短追加、多轮次”的工作负载模式,使得KV-Cache的加载效率而非计算效率成为主导性能的关键因素。

现有架构的致命弱点

当前主流的LLM推理系统普遍采用预填充-解码分离架构。在这种设计中,预填充引擎负责从分布式存储加载KV-Cache,然后传输给解码引擎进行自回归生成。

然而,论文揭示了一个严重的资源利用不平衡问题:预填充引擎的存储网络带宽成为整个系统的吞吐瓶颈,而解码引擎的存储网络带宽却基本闲置。

更令人担忧的是硬件发展趋势。论文数据显示,从NVIDIA Ampere架构到Blackwell架构,I/O与计算的比例下降了14.4倍。这意味着GPU算力增长远快于网络带宽和HBM容量的增长,导致I/O瓶颈问题日益严重。

面对这一挑战,DeepSeek团队提出了一个反直觉的解决方案:让KV-Cache加载不再局限于预填充引擎。

实现这一设计面临三个关键挑战:

推理吞吐量提升近2倍

论文在三个模型上进行了全面评估:DeepSeek-V3.2 660B、一个27B的降规模版本以及Qwen2.5-32B。

同时,论文也指出了未来工作方向:更自适应、更灵活的并行度和预填充-解码比例配置方法,以及在大规模部署中实现更低的TTFT(Time To First Token)百分位数。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version