当工程师们打开英伟达最新一代NVL72机柜的后盖时,首先映入眼帘的不是密集排列的72颗GPU,而是由超过5000根同轴铜缆编织而成的复杂网络。这些总长度超过3.2公里的铜缆,不仅构成了机柜内部的主要连接结构,更占据了整个设备1.36吨自重的相当比例。这种设计背后,折射出的是当前高性能计算领域面临的物理极限挑战。
机柜中央位置安装的9块NVSwitch托盘,被上下各9块计算托盘紧密环绕。这种布局并非偶然,而是基于铜缆信号传输特性的精确计算——在1.8TB/s的超高带宽下,铜缆信号的有效传输距离仅有数英尺。为确保所有GPU都能获得最优连接,工程师们不得不将交换芯片置于物理中心位置,使每个计算单元到交换节点的距离保持最短。
两年前英伟达首次展示NVL72时,铜缆连接方案曾被视为技术突破。网络部门高级副总裁Gilad Shainer当时向媒体强调:"铜缆在可用场景下是最优选择,它成本低廉且无需额外功耗。"这种设计确实带来了显著优势:相比光模块方案,整套系统节省了约20千瓦功耗,相当于避免了16%的额外能源消耗。在可靠性方面,无源铜缆连接在百万级链路规模下,故障率比可插拔光模块低两个数量级。
但技术演进很快暴露了铜缆方案的局限性。随着AI模型规模呈指数级增长,单个计算域需要容纳的GPU数量从72颗跃升至数千颗。NVL72虽然通过铜背板实现了机柜内全互连,但跨机柜连接仍需依赖传统InfiniBand或以太网,导致带宽和延迟性能出现断崖式下降。信号衰减问题在铜缆方案中尤为突出,1.8TB/s带宽下的有效传输距离不足一米,这直接限制了系统扩展能力。
光互连技术的突破为突破物理极限提供了可能。2025年英伟达在Spectrum以太网交换机和Quantum InfiniBand交换机上首次量产共封装光学(CPO)技术,通过将光引擎直接集成到交换芯片封装内,成功将单个光模块的功耗从10-15瓦降至3瓦以下,体积缩小至传统方案的1/3。这种技术革新为NVLink网络的光学升级奠定了基础。
在2026年GTC大会上,英伟达推出了革命性的混合连接方案。新发布的Vera Rubin NVL576系统采用分层架构:机柜内部GPU与交换机仍保持铜缆连接,确保低成本和高可靠性;机柜间则通过光模块实现高速互连,突破物理距离限制。这种设计使计算域规模从72颗GPU扩展至576颗,而功耗仅增加12%。更激进的Rosa Feynman NVL1152系统则计划在GPU封装层面引入CPO技术,预计可将延迟降低40%。
供应链布局成为决定技术落地的关键因素。英伟达在一个月内完成三笔战略投资:向Coherent和Lumentum各注资20亿美元锁定激光器产能,其中Coherent将利用投资将磷化铟晶圆产能翻倍;另向Marvell投资20亿美元开发硅光子技术,后者通过收购Celestial AI获得的光子互连技术,有望构建跨机柜的一致性内存网络。这三笔投资总计60亿美元,精准卡位光学供应链最稀缺环节。
竞争对手的开放标准联盟面临严峻挑战。由AMD、Intel等公司推动的UALink标准,其硬件产品最早要到2026年底才能试产,规模部署可能推迟至2027年。而英伟达通过提前锁定关键光学元件产能,已在供应链层面建立显著优势。分析机构指出,当开放标准硬件最终量产时,英伟达可能已占据全球CPO激光器产能的35%以上。
尽管全面转向光学互连,英伟达并未完全放弃铜缆技术。在机柜内部GPU到交换机的短距离连接场景中,铜背板方案仍保持着成本和可靠性优势。这种技术选择折射出务实态度:在物理极限范围内继续优化成熟方案,同时通过光学创新突破系统规模瓶颈。正如网络部门负责人所言:"铜缆仍是最佳选择,前提是传输距离在物理允许范围内。"











