国产算力正加速从“可用”向“好用”跨越,超节点技术成为突破国际竞争壁垒的核心抓手。随着大模型参数规模以每年近十倍的速度膨胀,传统算力集群的通信瓶颈日益凸显,超节点架构通过内部高速互联网络,有效解决了分布式训练中的“内存墙”与“通信墙”问题,成为支撑十万亿级参数模型训练的必然选择。
华尔街见闻披露,DeepSeek公司因高端算力供应受限,其V4 Pro版本服务能力受限,但预计下半年华为昇腾950超节点批量上市后,该版本价格将大幅下降。高盛分析指出,这一动态不仅强化了DeepSeek的成本优势,更印证了中国AI模型向国产算力迁移的趋势已获头部企业认可。国家发改委此前也明确表态,超节点等集群互联技术为中国算力追赶国际领先水平提供了关键机遇。
东方证券发布的行业深度报告指出,2026年将成为国产超节点规模商用的元年,交换芯片、服务器ODM、液冷散热、供电系统等全产业链将迎来爆发式增长。报告分析,随着MoE(混合专家)架构成为主流,模型参数已突破十万亿级,万卡集群成为训练标配,十万卡级集群逐步普及。OpenAI开发o3模型时,训练计算与推理时间均提升一个数量级,验证了算力投入与模型性能的正相关关系。
在分布式训练场景中,张量并行与混合专家并行对网络带宽提出极高要求。传统以太网已无法承载千亿级模型单次梯度同步产生的TB级数据量,而超节点通过内部高速总线互联,可显著降低通信延迟。DeepSeek透露,其V3.2版本在后训练阶段的算力投入已超预训练成本的10%,推理性能与GPT-5-high持平,凸显了算力效率提升的紧迫性。
推理侧需求同样激增。国家数据局数据显示,2026年3月中国日均AI Token使用量达140万亿,较2025年底增长近四倍。东方证券报告对比发现,超节点架构的Blackwell NVL72在推理性价比上显著优于H200 8卡服务器,单位功耗下的Token生成效率更高。这一优势在AI Agent等高交互场景中尤为突出。
国产超节点集群正通过架构创新实现弯道超车。以华为CloudMatrix 384与英伟达GB200 NVL72对比为例,单颗昇腾910C芯片性能虽仅为GB200模组的三分之一,但通过超节点集群方式,CloudMatrix 384的总性能反超1.7倍,内存容量与带宽分别达到3.6倍与2.1倍。交换芯片领域,国产厂商通过Switch tray多芯片方案,有效弥补了带宽代际差距。2025年国产AI芯片国内市场份额已达41%,DeepSeek-V4与智谱GLM-5等模型均已完成国产芯片适配。
互联协议生态的完善进一步加速了国产超节点落地。华为2025年9月发布的灵衢(UB)2.0技术规范,支持从机柜级向数据中心级扩展;中国移动牵头制定的OISA Gen2.0协议,将AI芯片支持数量提升至1024张,带宽突破TB/s级别;海光、阿里、字节跳动等企业也相继推出自研互联协议,推动Scale up生态多元化发展。
产业链变革已现端倪。交换芯片需求呈现量价齐升态势,以Rubin NVL72为例,其单机柜交换芯片用量较Blackwell翻倍至36颗,未来随集群规模扩大可能进一步倍增。液冷散热成为刚需,GB200 NVL72单机柜功耗达120KW,华为、阿里等企业已采用风液混合方案,而下一代Vera Rubin NVL72将实现全液冷覆盖,机柜级散热需求迈入MW级。
服务器ODM环节价值重估,超节点项目要求厂商从L10级服务器组装向L11整机柜级、L12多机柜级制造升级,集成范围扩展至网络互联、供电与制冷系统。华勤技术预计2026年超节点项目收入将超百亿元,浪潮信息发布的元脑SD200已实现64路国产AI芯片高速互连,百度昆仑芯256/512超节点也将于年内陆续上市。
高速互联需求催生新赛道。64-128 XPU规模内铜缆互联因成本优势成为首选,超出该规模后正交背板方案因信号损耗低、结构稳固更受青睐,更大规模集群则需引入OCS光电路交换设备支持复杂拓扑扩展。供电架构方面,超节点推动PSU功率从3.3KW向5.5KW、18.3KW升级,Powershelf容量提升至33KW乃至110KW,数据中心供电系统加速向高压直流与固态变压器转型。









