ITBear旗下自媒体矩阵:

十万卡算力时代来临,网络成新瓶颈,国产IB方案崛起正当时

   时间:2026-03-12 16:40:10 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能大模型训练迈入万卡甚至十万卡规模的新阶段,算力竞争的焦点正从芯片性能转向网络架构。当训练集群规模突破临界点,通信效率成为决定整体效能的关键变量,曾经被视为配角的高速网络技术,如今成为影响智算集群稳定运行的“命门”。

行业数据显示,在超大规模AI训练场景中,节点间通信耗时占比已超过30%,且随着集群规模扩大呈指数级增长。某头部互联网企业技术团队透露,其万卡级训练集群每月因网络问题导致的中断达数次,单次恢复耗时从数分钟至半小时不等。这种“算力等网络”的尴尬局面,迫使产业界重新审视网络架构的技术路线选择。

传统上占据主流的RoCE(RDMA over Converged Ethernet)技术,凭借与以太网的兼容性和成本优势,在中小规模集群中广泛应用。但当集群规模突破万卡门槛后,其基于优先级流控(PFC)的机制暴露出致命缺陷:接收端缓冲区压力触发暂停帧时,数据包丢失风险已然存在,且多级网络中易引发“PFC风暴”,导致全网瘫痪。某智算中心运维负责人表示,为维持RoCE网络稳定,需要配备专职团队持续调优参数,这对大多数用户而言“几乎是不可承受之重”。

相比之下,原生RDMA架构的InfiniBand(IB)技术展现出显著优势。其基于信用的流控机制要求发送端预先确认接收缓冲区空间,从根源上杜绝丢包可能。这种“先确认后发送”的机制,使得IB网络无需复杂拥塞控制,故障恢复时间可压缩至毫秒级。某超算中心实测数据显示,在3万卡规模集群中,IB架构的链路故障恢复效率比RoCE提升两个数量级,训练任务中断风险降低90%以上。

成本考量正在发生根本性转变。虽然IB硬件采购成本仍高于RoCE,但运维成本差异日益显著。某服务商测算表明,万卡级RoCE集群的专职团队人力成本、算力闲置损失和故障排查费用,综合已接近IB方案的硬件差价。更关键的是,IB的集中式管理架构支持更高端口密度,新一代国产方案已实现单子网超11万卡扩展,光模块成本和功耗较传统方案降低30%以上。

技术自主性突破为IB路线注入新动能。国内企业推出的全栈自研400G高速网络系统,在端到端时延、转发效率等核心指标上达到国际领先水平。该方案在国家超算互联网节点的3万卡商用部署中,累计完成超10万项作业运行,验证了其在真实负载场景下的可靠性。技术专家指出,这种“性能对标国际、自主可控”的解决方案,打破了国外技术在超高速网络领域的垄断。

市场格局已现微妙变化。Dell'Oro Group报告显示,在AI后端网络市场,IB架构持续保持头部份额。国内某网络设备厂商销售总监观察到,客户咨询重点正从“能否用RoCE”转向“万卡以上稳定性如何”。当训练任务周期延长至数十天,网络抖动造成的损失可能覆盖硬件差价,这使得原生架构的稳定性成为高端用户的“硬需求”。

中国工程院院士指出,智算集群规模化部署对网络提出“超低延迟、超高带宽、全程无损”的严苛要求,RDMA技术已成为支撑算力基础设施的“大动脉”。随着十万卡级集群成为新常态,网络架构选择将不再局限于成本或安全考量,而是聚焦于“能否让集群真正高效运行”的本质需求。在这场算力规模化竞赛中,网络技术正在书写新的竞争规则。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version