华为在世界人工智能大会上惊艳亮相,其最新研发的昇腾384超节点真机荣获“镇馆之宝”的美誉。这款超节点不仅在技术上实现了突破,更展示了华为在人工智能领域的深厚积累。
昇腾384超节点由精密设计的12个计算柜与4个总线柜组合而成,实现了前所未有的384个NPU卡高速总线互联规模。这一创新设计打破了传统CPU中心化的架构模式,引入了“全对等架构”理念。在这一架构下,CPU、NPU、DPU、存储和内存等资源通过高速互联总线实现了全面互联和池化,形成了点对点的高效算力网络。
该超节点的性能表现尤为亮眼,算力总规模高达300Pflops,网络互联总带宽达到269TB/s,内存总带宽更是惊人地达到了1229TB/s。在单卡推理吞吐量方面,昇腾384超节点也展现出了强大的实力,达到了2300Tokens/s。与英伟达NVL72方案相比,昇腾384超节点在算力、带宽等关键性能指标上均实现了显著提升。
昇腾超节点还具备出色的扩展性,能够轻松升级为Atlas900SuperCluster超节点集群,为更大规模的模型演进提供了有力支撑。在性能测试中,昇腾超节点展现出了卓越的性能优势,LLaMA3等千亿稠密模型的性能相比传统集群提升了2.5倍以上,多模态和MoE模型的性能提升更是达到了3倍以上。