AI算力领域正经历一场深刻变革,而这场变革的引领者来自中国。面对当前AI基础设施建设中“规模越大,效率越低”的困境,华为在全联接大会上推出了一项颠覆性技术——基于灵衢互联协议的超节点架构,为大规模AI计算开辟了全新路径。
传统AI集群的扩张模式已陷入瓶颈。当数万个计算单元需要协同处理万亿参数模型时,以太网等传统互联方式就像狭窄的水道,导致数据拥堵、计算单元闲置。据统计,在现有架构下,约40%的训练时间被浪费在等待数据传输上,任何节点的故障都可能引发连锁反应,导致耗时数周的训练任务中断。
华为的解决方案直指核心痛点——打破计算单元间的“通信墙”。通过自研的灵衢互联协议,华为将多台物理服务器融合为一个逻辑上的“超级计算机”。这种架构不是简单的硬件堆砌,而是从系统层面重构了计算、存储和通信的关系。大带宽、低时延的互联网络使全局资源池化成为可能,计算单元、存储单元得以平等交互,通信时延被压缩至百纳秒级。
这一技术突破已通过实践验证。华为董事、ICT BG CEO杨超斌透露,基于灵衢协议的超节点架构已实现超大规模部署,其性能领先性超越了国际同类方案。例如,NVL144的上市计划因技术难题推迟至明年下半年,而华为的超节点技术已进入成熟应用阶段。
超节点架构的“融合”特性体现在多个维度。在物理层面,它由多台机器组成;在逻辑层面,却如同单一设备般运作。统一通信协议与内存编址的设计,消除了传统集群中因协议差异导致的效率损耗。这种设计使有效算力能够随集群规模线性增长,同时显著提升了系统的可靠性。
针对不同场景的需求,华为推出了覆盖全链条的产品组合。旗舰产品Atlas 950 SuperPoD和Atlas 960 SuperPoD专为顶级玩家设计,分别支持8192张和15488张昇腾卡。其全液冷架构和零线缆电互联技术,解决了超高密度部署的散热与可靠性难题。FP8算力达8E FLOPS,总互联带宽16PB/s,相当于当前全球互联网峰值带宽的10倍以上。
企业级市场则迎来了更具普惠性的解决方案。Atlas 850作为业界首款风冷AI超节点服务器,将超节点架构带入标准风冷机房。企业无需改造现有基础设施,即可在单柜20千瓦的机房内构建1024卡集群。这一设计大幅降低了超节点的应用门槛,为行业大模型的“后训练”和多场景推理提供了可能。
在基础计算单元层面,基于昇腾950PR芯片的Atlas 350标卡实现了性能跃升。推荐推理场景性能提升2.5倍的同时,通过灵衢端口支持多卡互联与资源池化。这种“可拆可合”的特性,使用户能够根据需求灵活组装小型超节点,运行更大参数的模型或更低时延的应用。
超节点架构的应用边界正在扩展。TaiShan 950 SuperPoD将其引入通用计算领域,百纳秒级超低时延和内存池化能力,为数据库、虚拟化等对延迟敏感的场景带来性能提升。基于该架构打造的GaussDB多写架构,可直接替代传统大型机数据库,为传统IT架构升级提供了新选择。
华为的野心不止于技术突破,更在于构建开放生态。在硬件层面,NPU模组、刀片、主板等基础组件向合作伙伴开放,鼓励二次开发;在软件层面,昇腾CANN和操作系统灵衢组件全面开源,代码将融入openEuler等社区,并优先支持PyTorch、vLLM等主流框架。这种“硬件开放、软件开源”的策略,旨在吸引更多开发者和厂商参与,共同丰富超节点生态。
目前,基于灵衢协议的Atlas 900 A3超节点已部署300余套,服务20余个客户,覆盖互联网、金融、运营商、电力、制造等行业。新一代超节点在真实场景中验证了其价值,证明这一技术路线不仅能够解决大规模计算的效率难题,更能为不同行业提供适配的算力解决方案。