ITBear旗下自媒体矩阵:

揭秘让摩尔线程3天飙涨50%的关键发布会

   时间:2025-12-21 20:23:55 来源:凤凰网科技编辑:快讯 IP:北京 发表评论无障碍通道
 

摘要:

在中国市场,摩尔线程想构建一个中国版英伟达生态大厦。

凤凰网科技 出品

作者|Dale

编辑|董雨晴

英伟达的CUDA生态,一个被类比成“AI时代的Windows”系统的发布,在2006年刚刚面世时,几乎无人问津。

“一直到2010年,我们去研究一些CUDA的东西的时候,还是会觉得各种问题,之前大家都是英特尔的X86,很成熟了,一做CUDA,这也不行,那也不行,我们就开玩笑怎么做这么烂的?”一位在早年间就专注于英伟达CUDA做软件研究的从业者告诉凤凰网科技,这样的状态持续了仅五六年,到2015年,想再找CUDA的bug就很难了。

CUDA生态的开发者数量在2020年约为180万,到2025年已超过450万,每月工具包下载量达数十万次。到今天,英伟达还在不断加深这个护城河。

在中国市场,摩尔线程试图重讲一个类似的故事,构建一个中国版英伟达生态大厦。

12月20日,在北京中关村国际创新中心,摩尔线程首届MUSA开发者大会(MDC 2025)现场,摩尔线程创始人张建中在上市后首次公开亮相演讲,从“花港”新架构,到“夸娥”万卡集群,再到单卡推理性能突破,第一次系统性摊开了自己的技术底牌,步步直比英伟达。宣布该开发者大会信息后,摩尔线程连涨三天,合计涨幅超50%。

“生态体系是GPU行业的核心护城河与价值所在。”张建中在主题演讲中直言,这不仅是摩尔线程五年来在自主全功能GPU架构MUSA上的投入,也是其在2025年末向市场交出的新答卷。

对标英伟达,亮出全新架构“花港”

如果说芯片是算力的躯体,那么架构就是其灵魂。英伟达的Blackwell、Hopper均以架构命名,其重要性不言而喻明。摩尔线程此次发布的全功能GPU架构“花港”,正是其面向下一代计算范式的核心载体。

根据官方资料,“花港”架构在计算密度、能效、精度支持、互联能力及图形技术等方面实现全面突破:

计算性能显著提升:基于新一代指令集,算力密度提升50%,能效大幅优化;支持从FP4到FP64的全精度端到端计算,新增MTFP6/MTFP4及混合低精度支持。

异步编程与超大规模互联:集成新一代异步编程模型;通过自研MTLink高速互联技术,支持十万卡以上规模智算集群扩展。

图形与AI深度融合:内置AI生成式渲染架构,增强硬件光线追踪加速引擎,完整支持DirectX 12 Ultimate。

基于“花港”架构,摩尔线程明确了两条芯片产品线:

“华山”:专注AI训推一体与超大规模智能计算,为万卡级智算集群提供算力支撑,定位为“下一代AI工厂的坚实底座”。官方表示其性能约在Hopper和Blackwell之间。

“庐山”:专攻高性能图形渲染,图形性能实现全面跨越:AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍,运行3A游戏性能提升15倍。

在行业人士看来,放眼全球,目前仅英伟达等极少数企业具备真正意义上的全功能GPU量产能力。摩尔线程的切入,填补了国内该类型产品的空白,形成了差异化壁垒。不过,以上两款产品还都是“期货”,量产还需要时间。

在AI算力竞争已进入“万卡集群”时代的今天,摩尔线程正式发布了夸娥万卡智算集群(KUAE 2.0),并展示了其支撑万亿参数模型训练的工程化能力。

该集群核心指标包括:训练算力利用率(MFU)在Dense大模型上达60%,MOE大模型上达40%,有效训练时间占比超过90%,训练线性扩展效率达95%,“在多项关键精度指标上达到国际主流水平”。

在推理侧,摩尔线程联合硅基流动,在DeepSeek R1 671B全量模型上实现性能突破:MTT S5000单卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s。这一数据被官方称为“树立国产推理性能新标杆”。

中国工程院院士、清华大学计算机系教授郑纬民在大会演讲中指出,虽然构建国产万卡乃至十万卡级别的超大规模智算系统存在难度,但“这是必须完成的产业基础设施任务”。

摊牌了,要做中国“CUDA”

GPU之战,终局在生态,英伟达凭借CUDA构筑了近二十年的护城河。

“MUSA不仅完整定义了从芯片设计到软件生态的统一技术标准,更代表了公司坚持底层创新、践行长期主义的战略核心。”张建中表示。

据官方披露,截至2025年12月,摩尔线程通过“摩尔学院”汇聚了20万名开发者与学习者,并通过“国产计算生态与AI教育共建行动”走进全国200多所高校,吸引超10万名学子参与。

在软件栈层面,MUSA 5.0实现全面升级:原生支持MUSA C,深度兼容TileLang、Triton;核心计算库muDNN实现GEMM/FlashAttention效率超98%,通信效率达97%。公司还计划逐步开源计算加速库、通信库及系统管理框架等核心组件。

“只有生态能把所有开发者联合在一起,单一企业很难独自建设整个生态。”

实际上,摩尔线程为何如此重视生态?不单单是对标英伟达那么简单。

一位AI行业从业者告诉凤凰网科技,“通过软硬件的协同设计,做比较好的软件实现,还是能够把国产算力充分发挥起来的”。

不少从业者都认为,以当前的模型预训练需求来说,依旧以英伟达的芯片为最优解,但其同样溢价不菲,单个芯片市场报价通常在20万至25万元之间。在持续暴涨的AI需求面前,这是一笔需要计算的经济账。

因此在获准向中国出售H200之际,黄仁勋也表示,“美国放松对AI芯片销售的限制,中国是否会接受英伟达的H200芯片,我对此并不确定。”

“现阶段来看,如果大家愿意在软件上做相关工作,最终国产算力方案未必不如国外”,前述AI行业从业者表示,不过其也认识到国产生态建设之难。

摆在摩尔线程面前的,仍是漫漫长路:生态建设非一日之功,大规模商用部署仍需持续验证,国际竞争环境日益复杂。亮剑之后,更关键的是如何攻城。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version