在首届聚焦全功能GPU的开发者大会上,摩尔线程以MUSA为核心,推出了一系列覆盖芯片、硬件及集群的全新产品,构建起从云到端的完整技术生态。这场以“全功能GPU”为定位的发布,标志着国产GPU在算力密度、能效比及场景覆盖上实现关键突破。
MUSA架构作为摩尔线程的核心技术底座,已形成覆盖芯片设计、指令集、编程模型到软件生态的完整技术标准。其第五代架构“花港”在算力密度上提升50%,单位能效提升10倍,并首次支持FP4至FP64全精度计算,满足AI训练、科学计算及图形渲染的多元需求。通过MTLink高速互联技术,该架构可支撑十万卡级智算集群,为超大规模模型训练提供底层支撑。在低精度计算优化方面,新增的MTFP6/MTFP4加速技术及混合精度端到端引擎,使Transformer类模型的推理效率显著提升。
基于“花港”架构,摩尔线程同步推出三款芯片:面向AI训推一体的高性能GPU“华山”、专注图形渲染的“庐山”及智能SoC芯片“长江”。其中,“华山”芯片实现从FP4到FP64的全精度覆盖,其MTFP4/MTFP6加速技术使Transformer吞吐量提升3倍,硬件级量化/反量化模块直接嵌入芯片设计,为万亿参数模型训练提供硬件支撑;“庐山”芯片则通过AI生成式渲染架构(AGR)和硬件光追引擎,将3A游戏渲染性能提升15倍,AI计算性能较前代提升64倍,标志着国产显卡进入“光追+AI渲染”时代;“长江”作为端侧SoC芯片,提供50TOPS异构算力,面向具身智能、车载计算等场景,填补国产端侧AI芯片的空白。
硬件产品层面,摩尔线程发布两款开发者工具:MTT AIBOOK个人智算平台与AICube桌面计算魔方。AIBOOK搭载基于Linux内核的MT AIOS系统,兼容Windows与安卓应用,预置完整AI开发环境,支持2K高清渲染及本地大模型运行,其内置的智能体“小麦”可实现文本生图、语音交互等功能;AICube则以紧凑设计提供高性能推理能力,满足桌面端复杂任务需求。夸娥(KUAE 2.0)万卡智算集群实现Dense大模型60%、MOE大模型40%的算力利用率,有效训练时间占比超90%,并成功复现DeepSeek V3的FP8训练流程,自研FP8 GEMM算力利用率达90%,刷新国产GPU推理性能纪录。
软件生态构建方面,MUSA 5.0软件栈完成全栈工具链升级:新增对JAX、TensorFlow框架的支持,强化PyTorch、PaddlePaddle适配;训练生态扩展至强化学习框架MT VeRL,推理引擎优化自研MTT引擎与TensorX,兼容SGLang、vLLam等新兴工具;核心库muDNN实现GEMM效率超98%,编译器性能提升3倍。摩尔线程同步开源MATE算子库、MUTLASS通信库等核心组件,并推出面向AI+渲染融合的编程语言muLang,发布GPU中间表示语言MTX 1.0,赋予开发者更高调优自由度。
开发者生态建设成为摩尔线程战略重点。其打造的摩尔学院平台已聚集20万开发者,目标培育百万级MUSA开发者社群。通过与全国200所高校合作,摩尔线程以产教融合、联合实验室及“繁星计划”竞赛等形式,从教育源头培养熟悉国产架构的技术人才。这种“从芯片到生态、从硬件到人才”的全链路布局,正推动国产GPU从“可用”向“好用”跨越——当开发者开始思考“下一个项目能否全在MUSA生态中完成”时,国产GPU的真正突破已然到来。









