华为在AI领域再度迈出重要一步,正式推出了其最新研发的盘古 Ultra MoE模型,该模型的参数规模惊人,达到了7180亿。这款准万亿级别的混合专家(MoE)模型,全程在华为的昇腾AI计算平台上进行训练。
据悉,盘古团队为了确保模型训练的稳定性和效率,提出了两项创新技术:Depth-Scaled Sandwich-Norm(DSSN)稳定架构和TinyInit小初始化方法。这两项技术的结合,使得在昇腾平台上,超过18TB的数据能够进行长期且稳定的训练。
在训练方法上,华为团队首次公开了在昇腾CloudMatrix 384超节点上实现大稀疏比MoE强化学习(RL)后训练框架的关键技术。这一突破意味着,RL后训练正式进入了超节点集群的新时代,为AI模型的训练效率和效果带来了显著提升。
华为团队在短短不到一个月的时间内,对预训练系统加速技术进行了迭代升级。这些升级包括:针对昇腾硬件的自适应流水掩盖策略,通过优化算子执行序,降低Host-Bound,并提升EP通信的掩盖效果;开发自适应管理内存优化策略,有效管理内存资源;通过数据重排实现DP间Attention负载均衡,避免资源过载;以及针对昇腾硬件的算子优化,这些技术共同作用下,使得万卡集群预训练MFU的性能从30%大幅提升至41%。
这些技术上的突破和创新,不仅展示了华为在AI领域的深厚积累,也预示着AI技术未来在更多领域的应用前景。随着AI技术的不断发展,华为盘古 Ultra MoE模型的推出,将为各行各业提供更加智能、高效的解决方案。
盘古团队的创新精神和技术实力,不仅体现在模型的参数规模和训练效率上,更在于他们不断挑战技术极限,推动AI技术向前发展的决心和勇气。未来,我们有理由相信,华为将在AI领域取得更多突破,为人类社会带来更多福祉。
对于AI技术的未来发展,华为始终保持着开放和包容的态度。他们相信,只有不断与业界同仁合作,共同推动技术的创新和发展,才能让AI技术真正造福于人类社会。因此,华为也欢迎更多合作伙伴加入他们的行列,共同探索AI技术的无限可能。
最后,对于想要深入了解华为盘古 Ultra MoE模型和相关技术的读者,可以通过相关链接获取技术报告和项目文件预览。这些资料将帮助读者更深入地了解华为在AI领域的最新成果和创新技术。