2025年,金融AI领域迎来了一场重量级盛会——金融AI推理应用落地与发展论坛,此次论坛选址上海,汇聚了众多行业精英。会上,中国银联高层执行副总裁涂晓军与华为数字金融军团CEO曹冲分别发表了精彩致辞,为论坛奠定了坚实的基调。
论坛的核心亮点之一,是华为推出的AI推理创新技术——UCM推理记忆数据管理器。这一技术的发布,旨在优化AI推理体验,提升推理性价比,并推动AI在商业领域的正向循环。华为公司副总裁兼数据存储产品线总裁周跃峰博士亲自介绍,UCM技术的推出,正是为了应对当前AI发展面临的推理效率与成本平衡的难题。他强调,AI时代,推理体验与成本已成为衡量模型价值的关键指标,Token经济已成为不可忽视的趋势。
UCM技术由三大核心组件构成:推理引擎插件(Connector)、功能库(Accelerator)以及高性能存取适配器(Adapter)。这些组件通过推理框架、算力、存储三方面的协同工作,实现了AI推理的“更优体验、更低成本”。具体而言,UCM利用层级化自适应的全局前缀缓存技术,避免了重复计算,显著降低了首Token时延,最高可达90%。同时,通过将超长序列Cache分层卸载至外置专业存储,UCM突破了模型和资源限制,满足了长文本处理的需求。
在成本控制方面,UCM的智能分级缓存能力能够根据记忆热度在多种存储介质中按需流动,同时融合多种稀疏注意力算法,实现了存算深度协同。在长序列场景下,UCM使TPS提升了2-22倍,显著降低了每Token推理成本,为企业带来了实质性的减负增效。
华为与中国银联的联合创新技术试点,进一步验证了UCM的技术价值。在中国银联的“客户之声”业务场景中,UCM技术的应用使得大模型推理速度提升了125倍,能够在短短10秒内精准识别客户高频问题,极大地提升了服务质量。未来,中国银联计划依托国家人工智能应用中试基地,与华为等合作伙伴共同推动“AI+金融”示范应用,加速技术成果从实验室走向规模化应用。
分析人士指出,UCM技术的推出有望降低中国AI推理对高带宽内存(HBM)技术的依赖,进一步提升国内AI大模型的推理性能。这一突破性成果,无疑将为中国AI领域的发展注入新的活力。
论坛现场,华为还公布了UCM的开源计划。UCM通过开放统一的接口,可以适配多种类型的推理引擎框架、算力及存储系统。据悉,UCM将于今年9月正式开源,并逐步贡献给业界主流推理引擎社区,携手全产业链共同推动AI推理生态的繁荣发展。