亚马逊AWS近日宣布,其打造的全球规模最大的AI计算集群之一Project Rainier已正式投入使用。该集群作为超大规模计算基础设施,集成了近50万颗自主研发的Trainium2芯片,这些芯片分散部署于美国多个数据中心,通过高速网络互联形成强大算力矩阵。
这一项目从立项到落地仅用时不到一年,标志着亚马逊在AI基础设施领域迈出关键一步。作为AWS的重要合作伙伴,人工智能企业Anthropic已率先在该集群上部署工作负载。据测试数据显示,Project Rainier提供的计算能力较Anthropic此前训练模型时使用的系统提升超过五倍,显著缩短了复杂AI模型的训练周期。
值得注意的是,Trainium2芯片是亚马逊针对AI训练场景专门设计的第二代处理器。该芯片在能效比和计算密度方面实现突破,使得单个集群能够容纳如此庞大的芯片数量。通过分布式架构设计,不同数据中心的计算资源可协同工作,形成逻辑上统一的超级计算平台。
根据规划,到2025年末,Anthropic将进一步扩大在该平台的应用规模,届时将有超过百万颗Trainium2芯片投入Claude系列模型的训练与推理任务。这种算力规模的跃升,不仅将加速大语言模型的迭代速度,也为开发更复杂的AI应用提供了可能。行业分析师指出,此类超大规模计算集群的部署,正在重塑AI产业的技术竞争格局。
目前,Project Rainier已向特定企业客户开放测试。AWS方面表示,该集群的设计充分考虑了弹性扩展需求,未来可根据用户需求快速增加计算节点。这种模块化架构使得基础设施既能支持千亿参数级大模型的训练,也能满足实时推理等多样化场景的需求,为AI技术的商业化落地提供了重要支撑。











