ITBear旗下自媒体矩阵:

DeepSeek联合北大清华发布DualPath框架:解锁智能体推理新速度

   时间:2026-02-27 15:24:29 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在智能体应用场景中,对话轮次增加与上下文长度扩展已成为常态,但传统推理架构却因此面临严峻挑战。研究团队发现,当KV-Cache命中率超过95%时,系统性能的瓶颈已从计算能力转向数据搬运效率。实验数据显示,在现有预填充-解码分离架构中,预填充引擎的存储网卡带宽常因过度使用而饱和,而解码引擎的同类资源却处于闲置状态,这种资源错配直接导致推理效率受限。

技术实现层面,该框架采用三组件协同架构。推理引擎模块严格区分预填充与解码功能,每块GPU对应专属引擎;流量管理器负责跨设备数据传输与存储读写;中央调度器则扮演决策中枢角色,根据实时网络状态与计算负载,为每个请求智能选择最优传输路径。这种分层设计既保证了专业功能的高效执行,又通过全局调度实现了资源利用最大化。

针对双路径可能引发的流量冲突问题,研究团队提出双重优化机制。在硬件层面,通过计算网卡(CNIC)强制所有流量经GPUDirect RDMA路径传输,并利用虚拟层技术为推理通信分配99%的带宽优先级。在软件层面,自适应调度器持续监测各节点磁盘队列长度与Token处理量,优先将任务分配给I/O压力小且计算负载轻的节点,从根源上避免资源拥塞。

该研究的第一作者为北京大学博士生吴永彤,其研究方向聚焦于大模型基础设施的工程优化。目前他在DeepSeek系统组参与下一代推理框架开发,负责多硬件平台的性能调优工作。这段学术与产业结合的经历,使其能够精准把握系统软件优化与规模化部署的关键痛点。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version