近日,金融AI推理应用落地与发展论坛在上海隆重召开,吸引了众多行业内外的目光。会上,华为公司推出了其最新的AI推理创新技术——UCM推理记忆数据管理器,这一技术旨在改善AI推理体验,提高推理性价比,加速AI技术在商业领域的正向循环。
华为公司副总裁、数据存储产品线总裁周跃峰博士在论坛上发表演讲,指出AI推理已成为人工智能领域发展的新阶段,推理效率和体验成为衡量AI模型价值的关键指标。他强调,在AI时代,模型训练、推理效率与体验均以Token数为衡量标准,标志着“Token经济”时代的到来。
面对AI推理效率和成本之间的平衡问题,华为数据存储产品线AI存储首席架构师李国杰表示,行业正加速从“模型智能”向“数据智能”转变。他指出,商业领域对AI的闭环变现和用户体验提出更高要求,同时,当模型能力提升遭遇瓶颈时,转向数据智能成为必然选择。然而,许多模型因缺乏高质量数据而表现不佳,依赖AI合成数据又带来质量和治理上的挑战。
为了解决这一难题,华为推出了UCM推理记忆数据管理器。该技术由三大组件构成:推理引擎插件、功能库和高性能存取适配器。通过推理框架、算力和存储的协同工作,UCM实现了AI推理在体验和成本上的双重优化。
在提升推理体验方面,UCM采用层级化自适应的全局前缀缓存技术,直接调用KV缓存数据,避免重复计算,从而显著降低首Token时延。同时,该技术还能将超长序列Cache分层卸载至外置专业存储,实现推理上下文窗口的10倍级扩展,满足长文本处理需求。
在降低成本方面,UCM具备智能分级缓存能力,可根据数据热度在多种存储介质中实现按需流动。同时,该技术融合多种稀疏注意力算法,实现存算深度协同,使长序列场景下的TPS提升2-22倍,显著降低每Token推理成本。
华为与中国银联的合作,进一步验证了UCM技术的价值。在中国银联的“客户之声”业务场景下,借助UCM技术,大模型推理速度提升125倍,仅需10秒即可精准识别客户高频问题,有效提升了服务质量。未来,双方将依托国家人工智能应用中试基地,共建“AI+金融”示范应用,推动技术成果从实验室走向规模化应用。
华为数据存储产品线副总裁、闪存领域总裁谢黎明表示,金融行业在AI推理应用中面临长序列输入、并发性能不足和算力耗费大等挑战。华为的解决方案正是围绕改善推理体验和推理性价比展开的。他强调,金融行业在IT信息化和科技赋能方面一直走在前列,华为的解决方案旨在解决金融行业在AI推理中遇到的实际问题。
华为还宣布了UCM的开源计划。通过开放统一的南北向接口,UCM可适配多种推理引擎框架、算力和存储系统。今年9月,UCM将正式开源,并逐步贡献给业界主流推理引擎社区,携手全产业共同推动AI推理生态的繁荣发展。李国杰表示,开源旨在推动全栈协同和推理架构的发展,保持开放态度,沿着对推理发展和Token经济有益的趋势前进。
谢黎明则认为,通过开源,能让更多厂商和伙伴加入,推动标准落地和共创标准,从而真正解决AI推理在体验和成本上的问题。随着UCM技术的开源和推广应用,有望推动整个AI推理行业的效率提升和成本优化,为智慧金融的发展注入强劲动力。