ITBear旗下自媒体矩阵:

华为UCM技术革新AI推理:三级存储架构助力高效低耗

   时间:2025-08-13 03:10:00 来源:ITBEAR编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在近日举办的2025金融AI推理应用落地与发展论坛上,华为数据存储产品线的重要人物周跃峰博士揭晓了一项名为UCM(推理记忆数据管理器)的创新技术。这项技术专注于优化KV Cache管理,通过整合多种缓存加速算法工具,对推理过程中产生的KV Cache数据进行分级管理,有效扩大了推理上下文窗口。

UCM技术的核心在于其三级存储架构,它巧妙地利用了不同存储介质的优势。最热的数据被存储在高速的HBM中,以供实时高频访问;短期较热的数据则存放在服务器的DRAM中;而其余数据则被妥善安置在专业外置存储中。这一设计旨在提升AI推理系统的整体效率和性能。

据华为官方透露,UCM技术不仅实现了高吞吐、低时延的推理体验,还显著降低了每Token的推理成本。更为重要的是,华为计划于今年9月在魔擎社区首次发布UCM的开源计划,并逐步向业界主流推理引擎社区推广,与所有Share Everything存储厂商和生态伙伴共享这一创新成果。

与此同时,中国信息通信研究院人工智能研究所平台与工程化部主任曹峰也强调了当前AI推理领域面临的一个关键问题:高昂的HBM价格使得显存成为制约大模型和AI芯片性能的一大瓶颈。为了应对这一挑战,业界已经达成共识,采用外置存储来解决长序列推理问题,而KV Cache的优化则成为提升推理架构性能的关键所在。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version