在圣何塞举办的OCP全球峰会上,英伟达正式揭晓了其十亿瓦级AI工厂的未来蓝图,并宣布meta与甲骨文两大科技巨头将采用英伟达Spectrum-X以太网网络交换机,以强化其AI数据中心网络,加速大规模部署进程,推动AI训练效率实现质的飞跃。
英伟达创始人兼首席执行官黄仁勋强调,Spectrum-X远非简单的快速以太网解决方案,而是AI工厂的“神经系统”。它使得超大规模计算企业能够将数百万张GPU无缝连接,构建起一台巨型计算机,从而训练出历史上最大规模的AI模型。
作为专为万亿参数模型时代量身打造的以太网平台,英伟达Spectrum-X以太网平台由Spectrum-X以太网交换机与Spectrum-X以太网超级网卡共同构成。这一平台是首个专为AI应用设计的以太网解决方案,展现了创纪录的效率表现。
Spectrum-X以太网的拥塞控制技术尤为突出,它使得全球最大的AI超级计算机能够达到95%的数据吞吐量。相比之下,传统的以太网方案在面对大规模数据传输时,往往会遭遇数千次流量冲突,导致吞吐量大幅下降至60%左右。
这一效率的大幅提升,标志着AI可扩展网络在经济性和性能方面取得了重要突破。英伟达Spectrum-XGS以太网技术作为Spectrum-X以太网网络平台的一部分,具备跨规模扩展的能力,能够将跨城市、国家乃至大洲的数据中心连接成一个庞大的十亿级AI超级工厂。
Spectrum-X以太网平台基于英伟达全栈平台构建,涵盖了GPU、CPU、NVLink以及软件等多个层面,提供了从计算到网络的无缝性能保障。其先进的拥塞控制、自适应路由以及AI驱动的遥测功能,确保了大规模AI训练和推理集群的高效运行与可预测性。
甲骨文公司宣布,将建设通过Spectrum-X以太网互连的十亿级AI工厂。甲骨文云基础设施执行副总裁Mahesh Thiagarajan表示:“通过采用Spectrum-X以太网,我们能够以突破性的效率互连数百万张GPU,从而帮助客户更快地训练、部署并受益于生成式和推理式AI。”
与此同时,meta公司也宣布将把Spectrum以太网交换机集成到其Facebook开放交换系统(FBOSS)中。FBOSS是一个专为大规模管理和控制网络交换机而开发的软件平台。此次集成将加速meta的大规模部署进程,提升AI训练效率,并缩短洞察时间。
meta网络工程副总裁Gaya Nagarajan指出:“meta的下一代AI基础架构需要前所未有的开放高效网络。通过将英伟达Spectrum以太网集成到Minipack3N交换机和FBOSS中,我们能够扩展开放网络方法,同时释放训练更大规模模型所需的效率和可预测性,将生成式AI应用带给全球数十亿用户。”
在硬件集成方面,英伟达NVLink Fusion技术也取得了显著进展。该技术使企业能够将其半定制芯片无缝集成到高度优化且广泛部署的数据中心架构中,从而降低复杂性并加快产品上市时间。英特尔和三星代工厂已加入NVLink Fusion生态系统,该生态系统还包括定制芯片设计者、CPU和IP合作伙伴,共同助力AI工厂快速扩展,以应对模型训练和Agentic AI推理的苛刻工作负载。
全新NVLink Fusion生态伙伴阵容强大,包括CPU合作伙伴富士通、英特尔和高通,定制芯片合作伙伴AIchip、Astera Labs、GUC、Marvell、联发科和三星,以及技术合作伙伴楷登电子(Cadence)和新思科技(Synopsys)。
作为英伟达与英特尔合作的一部分,英特尔将构建使用NVLink Fusion集成到英伟达基础设施平台的x86 CPU。三星代工厂则与英伟达携手合作,满足对定制CPU和定制XPU日益增长的需求,为定制芯片提供从设计到制造的一站式体验。
如今,十亿瓦级AI集群已成为AI芯片行业领军企业的共同追求。英伟达Spectrum-X以太网和Spectrum-XGS结合了OCP的开放性和领先性能,被meta和甲骨文两大科技巨头选用部署,将为大规模AI训练及推理带来更可观的效率提升,进而加速生成式AI应用的开发与普及。