ITBear旗下自媒体矩阵:

华为UCM技术:智慧金融新引擎,AI推理性价比大飞跃

   时间:2025-08-18 18:41:46 来源:环球网科技编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在上海举办的2025金融AI推理应用落地与发展论坛上,华为震撼发布了其最新的AI推理技术——UCM推理记忆数据管理器。这一创新技术的面世,旨在推动AI推理体验的全面升级,提高推理性价比,并加速AI在商业领域的正向循环。

华为公司副总裁、数据存储产品线总裁周跃峰博士在论坛发言中指出,AI推理正迎来爆发式增长,推理体验和推理成本已成为衡量AI模型价值的关键指标。他强调,在AI时代,模型训练、推理效率与体验均以Token数为衡量标准,预示着Token经济时代的到来。

面对企业在推理效率与成本之间寻求平衡点的挑战,华为数据存储产品线AI存储首席架构师李国杰表示,业内已普遍认识到从“模型智能”向“数据智能”转变的重要性。他指出,商业侧对AI闭环变现和用户体验的追求,以及模型能力提升遭遇的天花板,都促使系统化转向数据智能成为必然趋势。

李国杰进一步解释说,许多模型表现不佳的根本原因在于缺乏高质量数据。过度依赖AI合成数据不仅导致数据匮乏,还带来质量隐患。因此,数据治理、数据价值挖掘和数据智能将成为下一阶段产业研究的核心议题。

为应对这一挑战,华为推出了UCM推理记忆数据管理器。该技术由推理引擎插件、功能库和高性能存取适配器三大组件构成,通过推理框架、算力和存储三层的协同工作,实现了AI推理体验的优化和成本的降低。

在提升推理体验方面,UCM采用层级化自适应的全局前缀缓存技术,能够直接调用KV缓存数据,避免重复计算,从而将首Token时延最大降低90%。同时,该技术还将超长序列Cache分层卸载至外置专业存储,通过算法创新突破模型和资源限制,实现推理上下文窗口的10倍级扩展,满足长文本处理需求。

在降低成本方面,UCM具备智能分级缓存能力,可根据记忆热度在多种存储介质中实现按需流动。同时,它融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下每秒处理token数(TPS)提升2-22倍,显著降低每Token推理成本。

华为与中国银联的联合创新技术试点充分验证了UCM的技术价值。在中国银联的“客户之声”业务场景下,借助UCM技术及工程化手段,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,有效提升了服务质量。

华为数据存储产品线副总裁、闪存领域总裁谢黎明指出,金融行业在AI推理应用中面临三大挑战:长序列输入导致的推理困难、并发性能不足和每Token时延长导致的推理速度慢,以及大量算力消耗在KV重复计算上导致的推理成本高。华为的解决方案正是围绕改善推理体验和推理性价比而设计的。

李国杰补充说,金融行业在IT信息化和科技赋能建设中一直走在前列,无论是银行还是保险行业,都能从大量数据中挖掘机会。随着进入Agentic AI时代,信息量爆炸,模型侧面临显存不足和推理Token成本高昂的问题。华为的解决方案正是为解决这些问题而提出的。

论坛上,华为还公布了UCM开源计划。UCM通过开放统一的接口,可适配多种推理引擎框架、算力和存储系统。计划于今年9月正式开源,并逐步贡献给业界主流推理引擎社区,携手全产业共同推动AI推理生态的繁荣发展。

李国杰表示,AI技术栈广泛而深入,开源是为了推动全栈协同,促进推理架构的发展,保持开放态度,沿着对推理发展和Token经济有益的趋势前进。谢黎明则认为,通过开源,能让更多厂商和伙伴加入,推动标准落地,共创标准,从而真正解决推理体验和成本问题。

华为UCM技术的发布,为AI推理领域带来了新的突破,也为智慧金融的发展注入了强大动力。随着UCM技术的开源和推广应用,有望推动整个AI推理行业的效率提升和成本优化。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version