在近期举办的开放计算项目峰会上,英伟达宣布了一项重大进展:其专为人工智能设计的Spectrum-X以太网网络平台,已获得meta平台与甲骨文两大科技巨头的采用。这一举措标志着数据中心正逐步转型为“大型人工智能工厂”,而网络架构则成为推动这一变革的核心力量。
Spectrum-X并非传统以太网的简单升级,而是从底层架构开始就针对AI工作负载的独特需求进行优化。它能够高效处理大规模GPU间的全对全同步、低延迟消息传递,以及易发拥塞的流量模式。英伟达宣称,相较于传统以太网,Spectrum-X在AI通信领域的网络性能提升了1.6倍,这一提升直接转化为GPU利用率的显著提高和训练推理效率的飞跃。
对于meta而言,Spectrum-X的引入意味着其开放网络架构FBOSS将获得AI加速的强力支持。通过将Spectrum-X集成至FBOSS及Minipack3N交换机中,meta不仅扩展了开放硬件与软件的理念至AI基础设施层,还为万亿参数模型时代的训练提供了优化的加速骨干网。meta网络工程副总裁Gaya Nagarajan强调,下一代AI基础设施需要前所未有的开放高效网络,而Spectrum-X正是这一需求的完美回应。
甲骨文则采取了规模化部署的策略,利用Spectrum-X构建由英伟达Vera Rubin架构驱动的千兆规模AI工厂。甲骨文云基础设施执行副总裁Mahesh Thiagarajan表示,Spectrum-X的引入使得数百万GPU能够以突破性效率实现互连,为全球分布式AI工厂的构建奠定了基础。通过SpectrumXGS技术,甲骨文能够将多个数据中心甚至跨国家的集群连接成一个逻辑AI系统,实现了真正意义上的分布式AI。
Spectrum-X的架构细节揭示了其成功的关键。它集成了Spectrum4以太网交换机,提供每秒51.2太比特的吞吐量,同时结合了BlueField-3超级网卡和DPU,卸载并保护网络服务,使GPU能够专注于计算。Spectrum-X还提供了先进的遥测和路由功能,动态调整数据包流以防止拥塞,并支持高速RDMA和多租户环境,实现了GPU到GPU通信的加速和安全的多租户管理。
随着AI应用的日益数据饥渴,网络已成为AI时代的实际操作系统。它不仅跨云、边缘和数据中心编排、调度和同步分布式资源,还成为了AI工厂的控制平面和神经系统。英伟达首席执行官黄仁勋指出,万亿参数模型正在将数据中心转变为千兆规模的AI工厂,而Spectrum-X则是这一变革的神经系统。
meta和甲骨文的采用验证了AI基础设施的一个重要拐点:AI的性能前沿已从计算转向连接。网络设计已成为AI未来的战略杠杆,决定了性能、成本和能源效率。通过Spectrum-X,英伟达正在将以太网重新定义为AI以太网,一个能够跨地理扩展、完全仪表化、GPU感知且无拥塞的数据结构。这一举措不仅将英伟达置于新大规模计算堆栈的中心,还向超大规模厂商传递了一个明确的信息:AI性能现在从网络开始。