在AI大模型参数规模突破万亿量级的当下,传统“堆芯片”的算力建设模式正遭遇前所未有的挑战。单GPU芯片的物理功耗密度、互连带宽与内存容量瓶颈,导致通信开销激增、算力利用率骤降,成为制约行业发展的核心痛点。面对这一困境,中兴通讯选择跳出单一芯片性能内卷,以“系统级协同”重构智算底座,推出超节点技术,为AI算力基础设施的构建开辟了新路径。
超节点技术的核心逻辑在于,通过系统级算力协同突破单GPU芯片的性能上限。行业共识认为,将多颗GPU通过高速无损互联技术整合为逻辑上的“超级计算机”,是解决单芯片瓶颈的关键路径。中兴通讯的实践正是基于这一趋势,将研发重心从芯片竞争转向系统优化,通过重构算力互联体系,将数十至数百颗多厂家GPU整合为统一计算单元,实现了算力的系统级优化。
为确保系统级算力协同的高效性,中兴超节点构建了四大核心前提:芯片能力均衡性要求GPU的算力、显存、互联带宽三者匹配;互联架构有效性需实现超节点内任意GPU间互联带宽达到机间互联的8倍;内存访问便捷性要求所有GPU支持统一内存编址;架构扩展原生性则确保集群扩展后仍保持高带宽域。这些设计为后续技术创新奠定了基础。
硬件架构创新是超节点技术的基石。中兴推出的OEX正交无背板互联交换架构,通过计算托盘与交换托盘的垂直交叉物理直连,彻底摒弃传统高速线缆,构建了无线缆的互联体系。这一设计使112G高速信号场景下的SerDes链路长度缩短30%以上,端到端链路插损余量大于3dB,大幅降低了误码率;同时,无线缆设计释放了机柜内部空间,支持64/128卡甚至更多GPU的集成,单位空间算力密度实现跨越式提升;系统故障修复时间从小时级缩短至分钟级,完美适配AI大模型7×24小时不间断训练的需求。
高速互联技术的突破是超节点技术的另一大亮点。中兴依托通信领域的技术积累,从芯片、物理层、协议层、计算卸载、扩展性五个维度实现全面创新。自研大容量交换芯片支持TB级带宽与百纳秒级时延,兼容RDMA、CLink等国内外主流互联协议;物理层采用以太网SerDes替代PCIe总线,轻松实现TB/s级端口带宽;协议层既支持UALink、ESUN等国际开放协议,又推动国内CLink协议统一;在网计算技术将GPU的高负载通信操作卸载至交换芯片,使稠密模型训练的All-Reduce操作复杂度从O(logN)降至O(C),MoE模型训练的通信时延下降20%-50%,干线流量减少超30%。
功耗管理创新为高密度算力建设提供了可持续的解决方案。面对GPU超节点机柜功耗从50kW向120-150kW乃至兆瓦级演进的趋势,中兴构建了全维度液冷散热体系。当前阶段采用单相冷板式液冷,可支撑百千瓦级机柜散热需求;未来规划硅基微通道冷板和两相冷板液冷技术,适配单芯片功耗突破2000W的需求;同时兼容浸没式液冷技术,为兆瓦级机柜散热提供解决方案。在供电方面,中兴采用HVDC高压直流供电架构,同等功率下电流降低8-16倍,铜材用量减少40%-50%,供电效率提升3%-5%,可支撑从100-150kW向250kW乃至1MW+级机柜的演进需求。
集群扩展创新解决了算力规模化平滑升级的难题。中兴通过Nebula Matrix集群超节点技术,实现了算力从百卡到万卡的平滑扩展。该技术采用“电交换+光互联”路线,通过高性能电交换机实现机柜内GPU互联,跨机柜场景则采用光纤介质完成互联。基于这一路线,Nebula X32单体超节点可扩展为Nebula Matrix X256/800集群超节点,未来更可进一步扩展至X8192/16384的超大规模集群。同时,Scale-Up与Scale-Out网络融合设计打破了传统两类网络独立组网的模式,构建了统一的超节点互联网络,显著降低了总拥有成本(TCO)。
软件栈创新是释放硬件算力潜能的关键。中兴打造了一套深度协同、全栈优化的软件栈体系,实现了对硬件资源的统一调度、管理、优化与监控。该软件栈支持统一虚拟化资源池与智能编排,动态弹性分配算力、内存、存储资源;通过极致通信优化与拓扑感知,将通信开销隐藏于计算过程之中;支持异构计算统一调度与编译器优化,提升单卡效率与跨芯片协同效率;构建全栈可观测性与智能运维体系,实现芯片-节点-集群的多级监控;设置高可靠冗余机制,避免单点故障导致训练中断;引入“算力-电力”协同的绿色调度,降低能耗与运营成本。算力仿真平台可为硬件选型、并行策略设计提供科学依据,以Qwen3-235B模型为例,256卡超节点相比8卡服务器训练性能提升15%。
多厂家GPU兼容是超节点技术的另一大特色。中兴通过硬件、芯片、协议、生态、集群五个维度的系统化设计,打破了单一GPU厂商的生态锁定。硬件层采用高度组件化设计,用户仅需更换UBB模组即可实现不同厂家GPU的“即插即用”;芯片层自研交换芯片兼容国内外主流互联协议;协议层推动形成统一的国内算力互联标准;生态层开放OEX正交架构的机械与电气接口规范;集群层支持跨机柜、跨品牌GPU的高带宽、低时延协同。这些设计为用户提供了灵活的算力选择,推动了国产GPU生态的繁荣发展。











