华为近期在AI技术领域迈出了重要一步,推出了名为UCM的AI推理创新技术。这一技术,全称推理记忆数据管理器,于8月12日正式面世。
UCM的核心在于其KV Cache(键值缓存)为中心的设计,旨在加速推理过程。它通过整合多种缓存加速算法工具,实现了对推理过程中产生的KV Cache数据的分级管理。这一创新不仅扩大了推理上下文窗口,还显著提升了推理的效率和体验,具体表现为高吞吐量和低时延,同时降低了每Token的推理成本。
值得注意的是,华为已经制定了UCM技术的开源计划。据悉,该技术将于2025年9月首次在魔擎社区向公众开放。此举无疑将进一步推动AI技术的发展和应用,为行业带来更多的创新和可能性。