8月12日,金融AI领域迎来了一项重要进展。在上海举办的2025金融AI推理应用落地与发展论坛上,华为公司高层宣布了一项针对AI推理的创新技术——UCM推理记忆数据管理器。
据华为公司副总裁、数据存储产品线总裁周跃峰博士介绍,UCM推理记忆数据管理器是一款专注于提升AI推理效率与降低成本的创新工具。它以KV Cache为核心,整合了多种缓存加速算法,通过分级管理推理过程中产生的KV Cache数据,显著扩大了推理上下文窗口,从而实现了高吞吐、低时延的推理体验,并有效降低了每Token的推理成本。
周跃峰在论坛上强调,AI时代,推理效率与体验的提升已成为关键,而Token数已成为衡量这些指标的重要标准。然而,随着企业对算力投入的持续增加,如何在推理效率与成本之间找到最佳平衡点,成为整个行业面临的重要挑战。UCM推理记忆数据管理器的推出,正是华为针对这一挑战给出的解决方案。
UCM推理记忆数据管理器由三大核心组件构成:推理引擎插件(Connector)、功能库(Accelerator)以及高性能KV Cache存取适配器(Adapter)。这三大组件通过推理框架、算力、存储三层的协同工作,实现了AI推理的“更优体验、更低成本”。
具体来说,UCM通过层级化自适应的全局前缀缓存技术,能够直接调用KV缓存数据,避免了重复计算,从而显著降低了首Token的时延。同时,UCM还将超长序列Cache分层卸载至外置专业存储,通过算法创新突破了模型和资源限制,实现了推理上下文窗口的10倍级扩展,满足了长文本处理的需求。
在降低成本方面,UCM具备智能分级缓存能力,能够根据记忆热度在HBM、DRAM、SSD等存储介质中实现按需流动。它还融合了多种稀疏注意力算法,实现了存算深度协同,使长序列场景下的TPS(每秒处理token数)提升了2-22倍,从而显著降低了每Token的推理成本。
为了验证UCM的技术价值,华为与中国银联联合进行了技术试点。在中国银联的“客户之声”业务场景下,借助UCM技术及工程化手段,大模型的推理速度提升了125倍,仅需10秒即可精准识别客户的高频问题,从而大幅提升了服务质量。
论坛上,华为还正式公布了UCM的开源计划。UCM通过开放统一的南北向接口,可以适配多类型的推理引擎框架、算力及存储系统。预计在今年9月,UCM将正式开源,并逐步贡献给业界主流推理引擎社区。华为希望通过这一举措,携手全产业共同推动AI推理生态的繁荣发展。