在近日举办的一场重要开发者大会上,国内GPU企业摩尔线程全面展示了其在全功能GPU领域的最新突破,涵盖架构创新、集群能力提升以及生态建设等多个维度,引发行业广泛关注。
此次大会的核心亮点之一,是摩尔线程全新一代GPU架构“花港”的正式发布。据介绍,该架构在计算密度方面实现了50%的提升,效能提升幅度最高可达10倍,并且完整支持从FP4到FP64的全精度计算。尤为值得关注的是,“花港”架构集成了自研的MTLink高速互联技术,这一技术为构建十万卡规模以上的集群提供了底层支撑,为未来大规模计算集群的扩展奠定了坚实基础。
基于“花港”架构,摩尔线程已规划了两款针对性芯片产品。其中,“华山”芯片专注于AI训练与推理一体化,旨在满足人工智能领域对高性能计算的需求;而“庐山”芯片则瞄准高性能图形渲染,在图形性能上实现了数量级的显著提升。具体而言,“庐山”芯片的AI计算、几何处理及光线追踪性能分别提升了64倍、16倍和50倍。这一架构与产品路线的发布,标志着摩尔线程正从单一场景的加速卡产品,向覆盖AI计算、图形渲染、科学计算等全场景的“全功能GPU”平台迈进,既是技术实力的体现,也是应对市场多元需求的战略布局。
在集群能力方面,摩尔线程首次系统披露了其“夸娥”万卡智算集群的关键工程效率指标,成为国内少数公开万卡级实际训练效率的厂商之一。数据显示,该万卡集群在训练稠密大模型时,模型算力利用率(MFU)达到60%;训练混合专家模型时,MFU为40%;训练线性扩展效率达95%,有效训练时间占比超过90%。这些指标,尤其是MFU,是衡量超大规模AI集群实际效能的关键因素,直接关系到训练的总体成本与可行性。在推理侧,摩尔线程联合硅基流动,在DeepSeek R1 671B全量模型上取得性能突破。经优化后,MTT S5000单卡在Prefill阶段吞吐量突破4000 tokens/s,Decode阶段突破1000 tokens/s,为国产GPU在超大规模模型推理场景树立了新的性能标杆。
中国工程院院士、清华大学计算机系教授郑纬民在大会演讲中指出,虽然构建国产万卡乃至十万卡级别的超大规模智算系统面临诸多挑战,但这是产业发展的必然任务。他认为,国产计算显卡与国外主流产品的性能差距正在逐步缩小,而集群能力的突破对于发展“主权AI”、实现“算力自主”至关重要。
除了硬件与集群的突破,摩尔线程在生态建设方面也迈出了重要步伐。公司宣布其自主统一的软件架构MUSA已迭代至5.0版本,并计划逐步开源包括计算加速库、通信库及系统管理框架在内的核心组件。郑纬民院士特别强调了开发者在生态建设中的核心作用,指出国产芯片平台必须构建友好、易用的开发环境。为此,摩尔线程发布了搭载自研“长江”智能SoC的AI算力本MTT AIBOOK,提供端侧50TOPS算力,旨在实现从芯片到开发环境的全栈整合与“开箱即用”。同时,其面向开发者的“摩尔学院”平台已汇聚近20万学习者,并通过校企合作覆盖全国超200所高校,形成了从底层技术开源、到开发工具供给、再到人才早期培养的全链路生态建设模式。
在技术融合与前沿探索方面,摩尔线程也展现了前瞻性布局。公司宣布基于“花港”架构实现了硬件级光线追踪加速,并推出了自研的AI生成式渲染技术MTAGR 1.0,推动渲染技术从“计算”向“生成”范式转变。摩尔线程已在具身智能、科学智能(AI for Science)、AI for 6G等前沿交叉领域展开布局,发布了具身智能仿真训练平台MT Lambda及相应的机器人解决方案,表明其技术路线不仅聚焦于单一的AI算力,更着眼于GPU作为通用计算平台在未来更广阔场景中的应用与价值重塑。
摩尔线程此次的全栈技术展示,反映了当前国产高端算力发展的阶段性特征:从单点芯片的突破,正逐步进入需要攻克超大规模系统工程、构建繁荣应用生态的新阶段。万卡集群效率的公开,意味着国产算力基础设施已开始接受大规模、高负荷实际场景的检验。而架构的迭代、图形与AI的融合,以及对科学计算等前沿领域的探索,则展现了企业参与定义下一代计算架构的技术雄心。然而,通往成熟生态的道路依然充满挑战,硬件性能的持续提升、软件栈的深度优化、与国内外主流开发框架及应用的广泛兼容,以及吸引足够数量和质量的开发者形成网络效应,仍是所有国产GPU厂商需要共同面对的课题。









