亚马逊在AWS re:Invent大会上正式推出了其最新一代的AI训练芯片Trainium3,并预告了Trainium4的研发计划。这一举措标志着亚马逊在数据中心定制芯片领域进一步巩固了其领先地位。Trainium3的发布不仅展示了其在性能上的飞跃,还体现了亚马逊在硬件架构、系统设计及软件生态方面的全面创新。
Trainium3在硬件设计上采取了多项创新,以优化总体拥有成本(TCO)下的性能。芯片采用台积电的3纳米N3P工艺,相比前代N5节点,N3P在相同漏电情况下速度提升约5%,或在相同频率下功耗降低5%—10%。这一工艺升级使得Trainium3在性能和能效上均有了显著提升。Trainium3的计算核心由8个大型NeuronCore组成,每个核心包含张量、矢量、标量和GPSIMD四个引擎,特别适合处理大规模生成式AI工作负载。
在内存和带宽方面,Trainium3同样进行了大幅升级。芯片配备了12层HBM3E内存,总容量达到144GB,内存带宽提升至9.6Gbps,相比前代提升了70%。这一提升得益于亚马逊从三星转向海力士和美光的内存供应,从而实现了更高的引脚速度。Trainium3还支持PCIe Gen 6扩展,每条通道带宽达到64Gbps,使得芯片间的扩展带宽翻倍,支持高达1.2TB/s的单向扩展带宽。
系统架构方面,Trainium3引入了独特的交换式横向扩展拓扑结构,相比前代的三维环形网格拓扑,这一设计在混合专家(MoE)模型架构下具有更高的绝对性能和更优的TCO表现。Trainium3提供了两种机架式SKU:NL32x2 Switched和NL72x2 Switched,分别采用风冷和液冷散热方式,以适应不同的数据中心环境。NL72x2 Switched机架设计尤为引人注目,它通过跨机架连接实现了144个芯片的全球规模,支持更大的模型并行计算需求。
在软件生态方面,亚马逊同样进行了大规模的战略转型。AWS宣布开源其原生PyTorch后端、内核语言编译器NKI以及内核和通信库,旨在构建一个开放的开发者生态系统。这一举措被视为对英伟达CUDA护城河的直接挑战,亚马逊希望通过吸引外部开发者贡献,快速扩大其软件栈的应用范围。AWS还计划在未来开源其XLA图编译器和JAX软件栈,进一步巩固其在AI软件领域的地位。
Trainium3的发布不仅对亚马逊自身意义重大,也对整个AI芯片市场产生了深远影响。随着Trainium3的逐步部署,亚马逊将能够更好地满足内部和外部客户对高性能、低成本AI训练芯片的需求。同时,Trainium4的研发计划也预示着亚马逊在AI芯片领域的长期投入和持续创新。面对来自英伟达、谷歌和AMD等竞争对手的激烈竞争,亚马逊凭借其全面的技术实力和灵活的市场策略,有望在AI芯片市场中占据更加有利的位置。












