近期,华为即将在金融AI推理应用落地与发展论坛上,于8月12日公布一项在AI推理领域的重大技术创新。这一消息由国内媒体率先披露。
据悉,华为的新技术有望减少对HBM(高带宽内存)技术的依赖,这对提升国内AI大模型的推理性能以及完善AI推理生态具有重大意义。HBM作为一种基于3D堆叠技术的DRAM解决方案,因其超高带宽、低延迟、高容量密度及高效能比,在AI推理中扮演着关键角色。
AI推理过程中,需要频繁调用大量的模型参数和实时数据,特别是千亿级权重的模型。HBM凭借其高带宽和大容量,使GPU能够直接访问完整模型,避免了传统DDR内存因带宽限制导致的算力浪费。对于参数规模庞大的AI模型,HBM能显著提升运算响应速度。
目前,HBM已成为高端AI芯片不可或缺的一部分,尤其在训练领域的应用几乎达到全覆盖,而随着AI模型日益复杂,其在推理领域的应用也在迅速普及。然而,HBM面临产能紧张以及美国出口限制的挑战,这促使国内厂商积极寻求替代方案,如Chiplet封装技术和低参数模型优化。