在华为全联接大会上,华为轮值董事长徐直军就公司人工智能算力领域的战略布局与产品规划展开深入分享。他指出,算力始终是人工智能发展的核心要素,对中国人工智能发展而言更是重中之重。自2018年推出昇腾310芯片、2019年发布昇腾910芯片后,华为持续深耕AI基础算力研发创新,致力于为全球AI算力筑牢根基。
面向未来,华为在芯片领域动作频频。徐直军宣布,华为已规划三个系列的昇腾芯片,涵盖950、960和970系列。其中,昇腾950系列包含950PR和950DT两颗芯片,950PR将于2026年一季度面市,950DT则在2026年四季度登场;昇腾960芯片预计2027年四季度上市,昇腾970芯片计划于2028年四季度推出。与上一代相比,昇腾950实现了多项关键技术突破:新增支持FP8/MXFP8/HIF8、MXFP4等低精度数据格式,算力大幅提升至1 PFLOPS和2 PFLOPS,显著提升训练与推理效率;向量算力大幅增强,支持更精细粒度内存访问;互联带宽提升2.5倍,达到2 TB/s;还搭载了自研HBM技术HIBL1.0和HIZQ2.0。
在通用计算领域,华为也推出了鲲鹏950与鲲鹏960两款芯片,分别计划于2026年第四季度和2028年第一季度上市,持续围绕支持超节点和提升性能进行演进。
同时,华为正式发布面向超节点的互联协议——灵衢,并开放灵衢2.0技术规范。自2019年启动研究以来,灵衢1.0已开启商用验证,此次灵衢2.0的开放,旨在邀请产业界基于该技术研发相关产品和部件,共同构建灵衢开放生态。
超节点作为智算发展的重要趋势,受到华为高度关注。超节点在物理上由多台机器组成,但在逻辑上可视为一台机器进行学习、思考和推理。华为此次发布了Atlas 950 SuperPoD和Atlas 960 SuperPoD两款超节点产品。基于昇腾950芯片的Atlas 950超节点,支持8192卡规模,由128个计算柜和32个互联柜组成,占地面积约1000平方米,FP8算力达8EFlops,FP4算力达16EFlops,互联带宽高达16 PB,相当于当前全球互联网总带宽的10倍以上,将于2026年第四季度上市。徐直军强调,Atlas 950超节点将成为2026 - 2028年间全球算力最强的AI超节点。
Atlas 960超节点支持15488卡,由176个计算柜和44个互联柜组成,算力、内存和带宽在Atlas 950基础上再次翻番,计划于2027年四季度上市。
徐直军特别提到,超节点的应用价值不仅体现在制造、通信和计算等传统业务领域,在互联网产业广泛应用的推荐系统方面也发挥着重要作用。华为基于泰山950和Atlas 950可构建混合超节点,为下一代深度推荐系统开辟全新架构方向。一方面,通过超大带宽、超低时延互联技术及超大内存容量,混合超节点能够形成PB级别的共享内存池,支持超大规模推荐系统嵌入表,从而承载超高维度的用户特征;另一方面,混合超节点具备的超大AI算力可支持低时延推理和高效特征检索,是面向下一代昇腾950系列推荐系统解决方案的全新选择。
然而,大规模超节点在提升智能计算和通用计算能力的同时,也对互联技术提出了巨大挑战。目前产业界面临两大难题:一是如何实现长距离且高可靠的互联。大规模超节点涉及多个机柜,连接距离可能长达1000至2000米。当前电互联技术在高速信号传输时距离受限,最多仅支持两个机柜互联;而光互联技术虽能满足长距离连接需求,却无法达到单一计算机系统所要求的高可靠性。二是如何实现超大带宽与超低时延。当前跨机柜卡间互联带宽与超节点需求存在5倍以上差距,时延最好仅能达到3微秒左右,与Atlas 950/960设计目标仍有24%的差距。在时延已逼近物理极限的情况下,每0.1微秒的提升都极具挑战。
由于受到外部制裁,华为无法采用全球最先进的芯片制程工艺。因此,华为通过超节点架构将多个芯片组合成一台逻辑统一的计算机,以系统级创新弥补单芯片性能差距。依托30多年积累的技术能力,华为通过系统性创新攻克了上述互联技术难题,完全满足了Atlas 950/960超节点的设计需求,并为未来实现万卡级超节点奠定了技术基础。徐直军表示,基于全球最强算力的超节点和集群,华为有信心为人工智能的长期快速发展提供可持续且充裕的算力。