ITBear旗下自媒体矩阵:

中兴Mariana技术:突破显存限制,加速大模型推理效率

   时间:2025-08-26 15:04:31 来源:量子位编辑:快讯团队 IP:北京 发表评论无障碍通道
 

随着大语言模型(LLM)在各行业的广泛应用,一个日益凸显的问题是推理效率与显存成本之间的紧张关系。特别是在LLM推理过程中,KV Cache(键值缓存)技术作为加速生成速度的关键手段,却因其显存消耗的巨大而成为了限制模型规模扩展和并发能力提升的重要因素。每增加一个token,就需要额外存储键和值向量,显存需求随之飙升,这对现有的存储解决方案提出了严峻挑战。

为了解决这一问题,业界展开了多种探索。Nvidia的Dynamo项目通过实现多级缓存算法,将热数据存储于显存,温数据存于主机内存,冷数据则存放在SSD或远端对象存储,并通过统一的索引和异步流水线实现数据迁移与透明访问。然而,这一方案在数据迁移流程和延迟开销方面仍面临复杂性和压缩难题。微软推出的LMCache存储系统虽然高度兼容vLLM等推理框架,但在分布式存储支持和空间上限方面存在局限。阿里巴巴提出的将KV Cache空间扩展至Tair数据库的远端存储方案,虽然存储空间易于扩展,但读写性能却难以满足LLM推理业务对低延迟的需求。

与此同时,CXL(Compute Express Link)这一新兴高速互联技术以其高带宽、低延迟和硬件级缓存一致性的特性,为解决AI和高性能计算中的内存瓶颈提供了新的可能。然而,关于如何利用CXL等新型介质扩展KV Cache空间的研究仍相对较少,这成为了一个亟待深入探索的领域。

中兴通讯与华东师范大学的研究团队在这一背景下联合提出了一种名为Mariana的分布式共享KV存储技术。该技术通过面向计算-内存分离架构的高性能分布式KV索引设计,完美适配了大模型推理场景下的GPU和KV Cache存储需求。通过细化并发控制粒度、定制数据布局以及自适应缓存策略等三项关键创新,Mariana实现了比现有方案更高的吞吐量和更低的尾延迟。

具体来说,Mariana通过MSCS方案将并发控制粒度从节点级降至条目级,大幅减少了写密集型和高偏斜工作负载下的争用。同时,TLN方案采用分离式存储,优化了读写操作序列,提升了查找速度。自适应缓存策略能够快速感知并缓存变化热点,显著降低了热点数据加载延迟。实验结果表明,与最新的分布式KV存储系统相比,Mariana在读写吞吐和延迟性能方面均有显著提升。

Mariana的创新设计与大模型KV Cache需求高度契合。其解耦内存架构支持将数据分布在远端CPU DRAM甚至PMem/SSD组成的共享内存池中,理论上存储空间没有上限。通过硬件加速和智能缓存两种方式,Mariana显著减少了完成一次KV Cache查找所需的计算和网络开销,极大地提升了读吞吐量。同时,其数据路径经过优化,能够满足推理流水线的严格延迟要求。

在实际应用中,基于vLLM框架搭建的大模型推理应用验证了Mariana多级存储方案的优势。测试结果显示,在GPU显存空间有限的情况下,基于Mariana扩展的多级KV Cache存储能够显著提升大模型推理过程预加载阶段的性能。这一成果为大规模分布式推理集群的存储基础提供了新的解决方案。

Mariana的强大之处在于其设计理念与底层硬件的解耦。其核心算法无需重新设计,即可从RDMA网络平滑迁移至未来的CXL硬件生态。通过替换远程访问API为CXL.mem操作,Mariana能够充分利用CXL的低延迟和一致性优势,为构建下一代大模型推理基础设施奠定坚实基础。这一突破不仅是一次技术创新,更重新定义了大模型推理的存储逻辑,为显存不再是限制因素、分布式存储能够在高吞吐与低延迟间找到平衡点的时代铺平了道路。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version