在中国GPU领域,一场围绕生态构建的激烈角逐正悄然展开。摩尔线程正试图打造一个具有中国特色的英伟达式生态体系,这一战略举措引发了行业的高度关注。
英伟达的CUDA生态在行业内堪称传奇。2006年刚推出时,它并未引起太多注意,早期使用体验也并不理想。一位早期从事CUDA软件研究的从业者回忆,当时大家习惯了英特尔成熟的X86架构,转向CUDA时遇到诸多问题,甚至开玩笑称其“糟糕”。然而,经过五六年的发展,到2015年,CUDA的稳定性已大幅提升,bug难觅。如今,CUDA生态愈发强大,2020年开发者数量约180万,到2025年已超过450万,每月工具包下载量达数十万次,英伟达不断加固着这一护城河。
摩尔线程将目光瞄准了这一领域,试图在中国市场复制类似的故事。在北京中关村国际创新中心举办的首届MUSA开发者大会上,摩尔线程创始人张建中在上市后首次公开演讲,全面展示了公司的技术实力。此次大会消息公布后,摩尔线程股价连续三天上涨,累计涨幅超50%。
张建中在演讲中强调,生态体系是GPU行业的核心价值所在。摩尔线程在自主全功能GPU架构MUSA上投入了五年时间,此次大会是其向市场交出的新答卷。对于GPU而言,架构至关重要,如同灵魂一般。摩尔线程此次发布的全功能GPU架构“花港”,是其面向下一代计算范式的关键载体。
“花港”架构在多个方面实现了突破。计算性能上,基于新一代指令集,算力密度提升50%,能效大幅优化,还支持从FP4到FP64的全精度端到端计算,新增多种低精度支持。在异步编程与互联方面,集成新一代异步编程模型,通过自研MTLink高速互联技术,支持十万卡以上规模智算集群扩展。图形与AI融合方面,内置AI生成式渲染架构,增强硬件光线追踪加速引擎,完整支持DirectX 12 Ultimate。
基于“花港”架构,摩尔线程规划了两条芯片产品线。“华山”系列专注于AI训推一体与超大规模智能计算,为万卡级智算集群提供算力支撑,性能介于英伟达的Hopper和Blackwell之间,定位为“下一代AI工厂的坚实底座”。“庐山”系列则专攻高性能图形渲染,图形性能实现全面跨越,AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍,运行3A游戏性能提升15倍。不过,这两款产品目前尚未量产。
在AI算力竞争进入“万卡集群”时代的背景下,摩尔线程发布了夸娥万卡智算集群(KUAE 2.0),展示了其支撑万亿参数模型训练的工程化能力。该集群在多项关键指标上表现出色,训练算力利用率在Dense大模型上达60%,MOE大模型上达40%,有效训练时间占比超过90%,训练线性扩展效率达95%,多项关键精度指标达到国际主流水平。在推理侧,摩尔线程联合硅基流动,在DeepSeek R1 671B全量模型上实现性能突破,MTT S5000单卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s,树立了国产推理性能新标杆。
中国工程院院士、清华大学计算机系教授郑纬民指出,构建国产万卡乃至十万卡级别的超大规模智算系统虽然难度较大,但这是产业发展的必要基础设施任务。
GPU领域的竞争,最终取决于生态建设。英伟达凭借CUDA构建了近二十年的护城河,摩尔线程也深知生态的重要性。张建中表示,MUSA不仅定义了从芯片设计到软件生态的统一技术标准,更体现了公司坚持底层创新、长期发展的战略核心。
截至2025年12月,摩尔线程通过“摩尔学院”汇聚了20万名开发者与学习者,并通过“国产计算生态与AI教育共建行动”走进全国200多所高校,吸引超10万名学子参与。在软件栈层面,MUSA 5.0实现全面升级,原生支持MUSA C,深度兼容多种语言,核心计算库效率超98%,通信效率达97%,公司还计划逐步开源核心组件。
一位AI行业从业者认为,通过软硬件协同设计,国产算力能够得到充分发挥。当前,模型预训练仍以英伟达芯片为最优解,但其价格高昂,单个芯片市场报价通常在20万至25万元之间。在AI需求持续增长的背景下,这是一笔需要权衡的经济账。因此,即使美国放松对AI芯片销售的限制,中国市场是否接受英伟达的H200芯片仍存在不确定性。
尽管国产算力方案有一定潜力,但国产生态建设面临诸多挑战。摩尔线程在亮出技术实力后,仍需面对生态建设的长期挑战、大规模商用部署的验证以及复杂的国际竞争环境,后续发展备受行业关注。









