ITBear旗下自媒体矩阵：

滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

DeepSeek再发新论文，DualPath架构如何将推理吞吐量提升近2倍？

时间：2026-02-28 03:25:48 来源：TechWeb编辑：快讯 IP：北京 发表评论无障碍通道

2月27日消息，就在外界翘首期盼DeepSeek-V4大模型发布之际，DeepSeek团队再次带来了一份技术惊喜。

论文开篇指出了一个重要趋势：LLM正在从单轮对话机器人演变为能够自主规划、调用工具、解决现实世界任务的Agentic系统。在这种新范式下，模型不再处理孤立的提示词，而是参与长达数十甚至数百轮的长期会话，上下文不断累积。

这种变化带来了全新的计算特征：高KV-Cache（键值缓存）命中率、低计算需求。论文中的数据显示，在典型的编码任务轨迹中，平均轮次达到157轮，平均上下文长度32.7K tokens，而每次追加的平均长度仅429 tokens，这意味着KV-Cache命中率高达98.7%。

这种“长上下文、短追加、多轮次”的工作负载模式，使得KV-Cache的加载效率而非计算效率成为主导性能的关键因素。

现有架构的致命弱点

当前主流的LLM推理系统普遍采用预填充-解码分离架构。在这种设计中，预填充引擎负责从分布式存储加载KV-Cache，然后传输给解码引擎进行自回归生成。

然而，论文揭示了一个严重的资源利用不平衡问题：预填充引擎的存储网络带宽成为整个系统的吞吐瓶颈，而解码引擎的存储网络带宽却基本闲置。

更令人担忧的是硬件发展趋势。论文数据显示，从NVIDIA Ampere架构到Blackwell架构，I/O与计算的比例下降了14.4倍。这意味着GPU算力增长远快于网络带宽和HBM容量的增长，导致I/O瓶颈问题日益严重。

面对这一挑战，DeepSeek团队提出了一个反直觉的解决方案：让KV-Cache加载不再局限于预填充引擎。

实现这一设计面临三个关键挑战：

推理吞吐量提升近2倍

论文在三个模型上进行了全面评估：DeepSeek-V3.2 660B、一个27B的降规模版本以及Qwen2.5-32B。

同时，论文也指出了未来工作方向：更自适应、更灵活的并行度和预填充-解码比例配置方法，以及在大规模部署中实现更低的TTFT（Time To First Token）百分位数。

更多>同类资讯

Cursor自研Composer 2模型性能飙升价格大降编程领域迎来新变革

而据Cursor透露，它之所以能在性能和价格之间取得平衡，核心还是靠引入了一种新的强化学习方法。而Cursor的解法是——首先总结很重要，其次把这种总结能力内化成模型自己的能力也很重要。在一组高难度软件…

03-22

OpenAI收购Astral：AI编程新棋局，开发者工作流将迎重大变革？

这是OpenAI把手伸进了全球数百万Python开发者的日常工作流里，直接把你每天都在用的基础设施，装进了自己的AI口袋。OpenAI的算盘是：当AI能无缝操作开发者每天都在用的基础设施时，它就成了不可替代…

03-22

苹果CEO库克访华谈AI：放下恐惧，让人工智能为生活增添更多快乐

IT之家 3 月 21 日消息，据央视财经今日报道，苹果公司首席执行官蒂姆 · 库克现身北京朝阳某艺术空间，观看了解人工智能等数字化技术在壁画复原等传统文化保护和传承方面的最新应用。在我们看来，人工智能是对人…

03-22

砥脊科技AI主播“球球AI”全球直播，聚焦脑机接口技术发展与安全规范

目前资本市场对Neuralink等头部公司估值预期较高，“球球AI”据此判断，脑机接口大众化产品应用落地可能在未来几年内加速推进。为此，论论全球提出了一个解决方案：全面呼吁构建“开源科技文明”——推动脑机接…

03-22

MIT博士突破性成果：在Transformer内嵌入计算机，重塑LLM能力边界

这意味着，从此LLM不再是靠概率预测下一个智元（Token）的文字游戏机，而是进化成了一台真正的数字计算机。为了绕过这一限制，他们发明了一种新的解码路径，实现了指数级加速的注意力机制，让每智元（Token…

03-22

华为云AI战略新篇：以行业智能体为核，共筑企业级AI创新新生态

邮储银行软件研发中心处长李佳斌表示，从“邮储大脑1.0”聚焦感知智能，到“2.0”聚焦执行、生成、交易的能力升级，邮储银行坚持“发展与安全并重”，通过“业务提意向、技术先预研、试点再推广”的研发模式，重点推进…

03-22

华为发布Atlas 350加速卡：昇腾950PR助力，算力超H20近3倍且支持FP4低精度

与前一代昇腾芯片相比，昇腾950PR在低精度数据格式、向量算力、互联带宽及自研HBM等方面实现大幅提升。据华为昇腾计算业务总裁张迪煊介绍，Atlas 350的单卡算力达到了英伟达H20的2.87倍，是目前…

03-22

华为跨界再出招！成立传媒军团，以技术生态双驱动重塑传媒新格局

重磅消息传出，华为将正式成立传媒军团，聚焦传媒行业数字化转型，布局全场景传媒生态，从内容生产、传播运营到商业化变现，全方位打通产业链，彻底打破传统传媒行业格局！在技术层面，华为5G 技术能实现超高清视频、直…

03-22

华为AI F5G-A全光园区方案亮相，以“光智融合”赋能园区智慧升级

记者3月21日获悉，在华为中国合作伙伴大会2026期间，华为发布了面向智慧园区的AI F5G-A全光园区解决方案，通过光网络与人工智能技术的深度融合，为快速发展的园区AI应用构建全光联接、鸿蒙物联、多维感知…

03-22

硬核科技企业齐聚奉贤，共启科技馆创新计划助力青少年成长

03-22

华为昇腾Atlas 350加速卡正式登场全新950PR处理器助力多场景算力升级

03-22

苹果高端“全家桶”体验：5万MacBook Pro与3万Studio Display贵在哪？

03-22

新款阿维塔12预售开启，增程纯电双路线，精准定位“悦己”人群

03-22

华为Atlas 350加速卡携昇腾950PR处理器登场，多项性能指标超越英伟达H20

03-22

AI主播“球球AI”全球直播：探讨脑机接口未来，呼吁构建开源科技文明

03-21

点击查看更多 +

全站最新

小米汽车迈向国际新征程，SU7、YU7测试车现身欧洲多国引关注

宝马纯电新篇：i3携708公里EPA续航与463马力，开启电动3系新时代

岚图泰山X8香港上市即亮相，以四大硬核实力开启中国大五座SUV新纪元

科大讯飞T30 Lite学习机：AI伴学，让孩子在科技温暖中高效成长

北汽高层变动：合资红利消退，老牌车企转型面临关键三重考验

AI科班生必看：CV与NLP方向下，CAIE认证如何助力职业规划与实操提升

热门内容

本栏最新

新款阿维塔12预售开启，增程纯电双路线，精准定位“悦己”人群

华为云AI战略新布局：以行业智能体为核，共筑企业智能化升级新未来

鲲鹏伙伴产业峰会2026深圳落幕携手伙伴共筑数智世界算力新未来

中联重科起重“巨擘”齐聚！全球最大吨位折臂起重机惊艳登场

破内卷困局：从存量争夺到价值共生，企业竞争新航向如何开辟？

OpenClaw科研智能体：以自然语言为钥，解锁全流程科研新体验

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.