在近日举办的首届MUSA开发者大会上,摩尔线程向业界展示了其在全功能GPU领域的一系列重大突破,涵盖架构创新、集群能力提升以及生态建设等多个维度。其中,新一代GPU架构“花港”的发布和“夸娥”万卡智算集群的实际效率披露,成为全场焦点。
“花港”架构的推出,标志着摩尔线程在计算密度和效能方面实现了显著提升。据介绍,该架构的计算密度提高了50%,效能提升最高可达10倍,并全面支持从FP4到FP64的全精度计算。更引人注目的是,架构中集成了自研的MTLink高速互联技术,为未来十万卡规模以上的集群扩展奠定了坚实基础。摩尔线程创始人、董事长兼CEO在演讲中指出,生态体系是GPU行业的核心竞争力,也是其价值所在。基于“花港”架构,公司已规划了两款芯片:一款是专注于AI训练与推理一体化的“华山”,另一款是瞄准高性能图形渲染的“庐山”。其中,“庐山”在图形性能上实现了数量级的飞跃,AI计算、几何处理及光线追踪性能分别提升了64倍、16倍和50倍。这一架构与产品路线的发布,表明摩尔线程正从单一场景的加速卡产品向覆盖AI计算、图形渲染、科学计算等全场景的“全功能GPU”平台迈进。
在集群能力方面,摩尔线程首次公开了“夸娥”万卡智算集群的关键工程效率指标。数据显示,该集群在训练稠密大模型时,模型算力利用率(MFU)达到60%,训练混合专家模型时MFU为40%,训练线性扩展效率达95%,有效训练时间占比超过90%。这些指标,尤其是MFU,是衡量超大规模AI集群实际效能的关键,直接关系到训练的总体成本与可行性。中国工程院院士、清华大学计算机系教授在大会上表示,虽然构建国产万卡乃至十万卡级别的超大规模智算系统难度极大,但这是必须完成的产业基础设施任务。他认为,国产计算显卡与国外主流产品的性能差距正在逐步缩小,而集群能力的突破是发展“主权AI”、实现“算力自主”的重要一环。
在推理侧,摩尔线程与硅基流动合作,在DeepSeek R1 671B全量模型上取得了性能突破。经过优化后,MTT S5000单卡在Prefill阶段吞吐量突破4000 tokens/s,Decode阶段突破1000 tokens/s。这一数据为国产GPU在超大规模模型推理场景树立了新的性能标杆,也反映了从硬件到软件系统级调优的显著成效。
除了硬件与集群的突破,摩尔线程还在生态开放与赋能方面迈出了重要步伐。公司宣布,其自主统一的软件架构MUSA已迭代至5.0版本,并计划逐步开源包括计算加速库、通信库及系统管理框架在内的核心组件。为降低开发门槛,摩尔线程发布了搭载自研“长江”智能SoC的AI算力本MTT AIBOOK,提供端侧50TOPS算力,旨在实现从芯片到开发环境的全栈整合与“开箱即用”。同时,其面向开发者的“摩尔学院”平台已吸引近20万学习者,并通过校企合作覆盖全国超200所高校。这种从底层技术开源、到开发工具供给、再到人才早期培养的全链路生态建设思路,体现了国产GPU企业对行业规律的深刻理解——生态的构建是一场需要长期投入、多方协同的马拉松。
此次发布还揭示了GPU技术演进的前沿趋势:图形、AI与高性能计算的深度融合。摩尔线程宣布,基于“花港”架构实现了硬件级光线追踪加速,并推出了自研的AI生成式渲染技术MTAGR 1.0,推动渲染从“计算”走向“生成”范式。公司已在具身智能、科学智能(AI for Science)、AI for 6G等前沿交叉领域展开布局,发布了具身智能仿真训练平台MT Lambda及相应的机器人解决方案。这些举措表明,其技术路线并非仅追逐单一的AI算力,而是着眼于GPU作为通用计算平台在未来更广阔场景中的渗透与价值重塑。
摩尔线程此次的全栈技术展示,反映了当前国产高端算力发展的阶段特征:从单点芯片的突破,正进入需要攻克超大规模系统工程、构建繁荣应用生态的“深水区”。万卡集群的效率公开,意味着国产算力基础设施已开始接受大规模、高负荷实际场景的检验。而架构的迭代、图形与AI的融合,以及对科学计算等前沿领域的探索,则展现了企业试图参与定义下一代计算架构的技术布局。然而,通往成熟生态的道路依然漫长。硬件性能的持续提升、软件栈的深度优化、与国内外主流开发框架及应用的广泛兼容,以及吸引足够数量和质量开发者形成网络效应,均是摆在所有国产GPU厂商面前的共同课题。











