滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

十万卡算力时代网络成关键，国产IB突破瓶颈引领新趋势

时间：2026-03-12 23:44:55 来源：快讯编辑：快讯 IP：北京 发表评论无障碍通道

在人工智能大模型训练的赛道上，万卡、十万卡集群已成为新的竞争高地。然而，当算力规模突破临界点后，一个意想不到的瓶颈悄然浮现——网络通信正成为吞噬算力效率的“隐形杀手”。据行业统计，在超大规模AI训练集群中，节点间通信耗时占比已超过30%，且随着集群规模扩大，这一比例呈指数级上升趋势。这场由网络引发的变革，正在重塑整个智算基础设施的技术路线图。

曾经被视为“经济适用型”解决方案的RoCE（RDMA over Converged Ethernet），正面临前所未有的挑战。这种基于标准以太网改造的技术方案，通过叠加RDMA功能实现了低成本的无损通信，在千卡级集群时代占据主导地位。但当集群规模突破万卡门槛后，其依赖的PFC流控机制暴露出致命缺陷——这种“事后补救”式的拥塞控制，如同在高速公路上采用“紧急刹车”来避免追尾，极易引发多级网络中的连锁崩溃。某头部互联网企业的实测数据显示，其万卡级RoCE集群每月因PFC风暴导致的训练中断达3-5次，每次恢复耗时超过20分钟。

运维复杂度的指数级增长，正在消解RoCE的成本优势。为维持网络稳定性，企业需要组建专职优化团队，持续调整数百个水线参数。这种“手工调优”模式不仅人力成本高昂，更导致算力利用率波动幅度超过15%。某智算服务商的测算表明，在万卡集群生命周期内，RoCE方案的综合运维成本已接近IB（InfiniBand）架构的硬件差价，彻底颠覆了“IB昂贵”的传统认知。

与之形成鲜明对比的是，原生RDMA架构的IB网络展现出惊人的规模适应性。其基于信用的流控机制，通过“先确认后发送”的预防式设计，从根源上杜绝了丢包风险。这种技术特性使得IB网络无需复杂调优即可实现稳定运行，某头部厂商的十万卡集群已连续运行超过180天无中断。更关键的是，IB的集中式管理架构通过全局路由规划，将死锁概率降至零，而RoCE的分布式协商机制在同等规模下死锁风险高达37%。

在故障恢复能力这个关键指标上，IB架构展现出压倒性优势。通过动态容错路由技术，IB网络可在毫秒级完成链路切换，且恢复时间不随规模扩大而增加。某国产IB方案的实测数据显示，在3万卡集群中，日均数十次链路故障未引发任何训练中断。而同等规模的RoCE集群，每次故障恢复需要3-5秒，足以触发训练任务回滚，造成数十分钟的算力浪费。这种稳定性差异，正在改变高端用户的采购决策逻辑——某金融科技企业的采购负责人坦言：“当训练任务周期超过30天，IB方案带来的效率提升足以覆盖其硬件溢价。”

技术路线的分野，在国产化浪潮中呈现新的变量。中科曙光推出的scaleFabric原生无损网络系统，通过全栈自研的112G SerDes IP、交换芯片和智能网卡，实现了端到端时延低于1微秒、转发时延260纳秒的性能指标。该方案在郑州超算中心完成3万卡商用部署，累计运行超10万项作业，验证了其单子网支持11万卡扩展的可靠性。这项突破不仅打破了海外技术垄断，更创造了新的技术范式——通过智能流量调度算法，在保持IB原生优势的同时，将组网成本降低40%，功耗下降35%。

市场格局的演变印证着技术路线的更迭。Dell'Oro Group数据显示，在AI后端网络市场，IB架构的份额持续攀升，特别是在万卡以上集群领域占据绝对优势。这种趋势在国内市场尤为明显，随着大模型训练从“参数竞赛”转向“工程化落地”，用户对网络可靠性的要求已超越成本考量。某云服务提供商的采购数据显示，其2024年新建的5个万卡集群中，4个选择了IB架构，这一比例在2023年仅为1:4。

在这场算力军备竞赛中，网络技术的演进正在改写游戏规则。当集群规模突破十万卡临界点，通信延迟每降低1微秒，可能带来数PFlops的有效算力提升；网络稳定性每提高1个百分点，意味着数百万美元的训练成本节约。这种技术经济性的质变，使得RDMA架构的选择不再局限于性能与成本的权衡，而是关乎整个智算基础设施能否持续进化的战略决策。随着国产IB方案的成熟，一个全新的技术竞争维度正在开启——在这条算力大动脉上，每纳秒的优化都可能决定未来AI竞赛的胜负。

更多>同类资讯

美光单月暴涨77%创纪录，AI热潮下估值仍低，供给风险隐现

05-28

锋龙股份董事会提前换届 “人形机器人第一股”优必选团队强势进驻

05-28

视觉AI赋能未来：广州艾翔科技如何让机器“看懂”并服务世界

公开资料显示，该公司将“智慧赋能应用、智能连接万物”作为核心理念，长期深耕生物特征识别、视觉AI及物联网等技术领域，致力于为行业用户提供AI视频分析整体解决方案。在前端，公司自研的智能IPC内置轻量化算法，可…

05-28

墨芯C轮融资近十亿：以稀疏计算破局，引领AI推理成本“瘦身”新征程

05-28

小鹅通：以“共享CTO”之姿，借AI东风深耕数字化服务新蓝海

05-28

AI算力跃升引发电力架构剧变：800VDC时代，模拟半导体谁主沉浮？

05-28

中外AI大模型比拼：海外稳居第一梯队国产三强紧追全球前列

05-28

AI巨头争霸：Anthropic年度经常性收入近450亿，超OpenAI约35%

05-28

390万起售！全球首款量产载人变形机甲GD01亮相发布即获青睐有人当场下单

05-28

Claude Code创始人鲍里斯·切尔尼：AI赋能创业，计算机毕业生迎来黄金创业期

05-28

重庆首例！企业借AI虚构购车热潮推广新车涉嫌违法被查处

05-28

OpenAI深夜紧急修复：ChatGPT及API服务已恢复，部分功能持续优化中

05-28

日本约30家龙头企业拟投资软银AI合资公司共推本土AI发展谋全球竞争力

05-28

MiniMax全球客户破百万大关，近两月ARR翻番技术生态全面繁荣

05-28

绿电赋能智算新场景：新技术助力AI与能源融合驶入“快车道”

智算中心的负责人告诉记者，目前电力成本占到整体运营成本的50%以上。除了跨省算电协同，绿电就近直供算力中心的场景也在落地，在内蒙古赤峰，一个大型算电协同基地正在建设当中，将绿电，绿氢和绿色算力进行耦合，降…

05-28

点击查看更多 +

全站最新

视觉AI赋能未来：广州艾翔科技如何让机器“看懂”并服务世界

云桌面系统：破解物业IT运维难题，实现高效便捷数字化管理新路径

京东超市陈年白酒报告：茅五汾泸受青睐，30-50岁男性成消费主力军

小米超越大众丰田，成全球新能源车企第七

YU7标准版与GT登场，小米能否在激烈车市中再掀销量热潮？

德国汽车工业新动向：曾用“中国台词”如今成自身现实写照

热门内容

本栏最新

视觉AI赋能未来：广州艾翔科技如何让机器“看懂”并服务世界

十年后开车或成小众爱好：自动驾驶浪潮下，生活技能正悄然蜕变

大模型赋能智能座舱：从同质化困局迈向主动服务新时代

2026新能源赛道：从价格混战到技术深耕，车市新较量正式启幕

10万级纯电SUV新选择！上汽MG 4X上市，半固态电池后驱配置全都有

全新一代问界M9上市！47.98万起售，配置拉满或成SUV市场新标杆

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.