ITBear旗下自媒体矩阵:

华为携手湖北移动完成AI推理加速现网测试 长序列场景下性能大幅提升

   时间:2026-06-26 10:01:50 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在2026 MWC上海展期间,华为携手中国移动通信集团湖北有限公司(简称“湖北移动”)共同宣布,双方已圆满完成全国运营商首个AI推理加速解决方案的现网测试。这一成果标志着运营商在AI智算业务领域迈出了重要一步,为高效部署相关业务提供了坚实的技术基础。

此次测试依托华为OceanStor A800存储系统与昇腾A3超节点架构,并融入了UCM(统一缓存管理器,即推理记忆数据管理)技术。在长序列AI推理场景下,该方案实现了Token吞吐率最高达372%的显著提升,有效突破了传统技术瓶颈。

测试在湖北移动的实际网络环境中进行,采用了vLLM-Ascend框架,并针对MiniMax M2.5、GLM-5.1等主流大模型,模拟了从8K到190K的长序列输入场景。这一设计确保了测试结果的广泛适用性和实际参考价值。

在MiniMax M2.5模型测试中,启用UCM技术后,首Token延迟(TTFT)得到了26%至62%的优化,同时单NPU卡的Token输出效率(TPS)也有显著提升。具体而言,在64K序列长度下,TPS提升了58%;而在128K序列长度下,这一提升幅度更是达到了78%。

对于GLM-5.1模型,UCM技术的加速效果更为显著。TTFT的优化幅度达到了51%至93%,而TPS的提升则介于56%至372%之间。特别值得注意的是,在64K序列长度下,TPS提升了313%;在128K序列环境下,TPS的最高提升幅度更是达到了372%。

华为方面表示,测试数据充分证明,随着上下文长度的不断增加,AI推理加速方案的优势将愈发明显。这一方案有效解决了长序列推理中的KV Cache容量瓶颈问题,为运营商在处理复杂AI任务时提供了更为高效的技术支持。

对于运营商而言,这一成果意味着在大模型推理、智能客服、内容生成以及行业智能体等长序列AI业务场景中,现网智算资源的利用效率将得到显著提升。同时,它还能有效降低长上下文推理所带来的性能压力,为运营商提供更加稳定、高效的AI服务。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version