ITBear旗下自媒体矩阵:

摩尔线程发布全功能GPU新路线图!新架构算力飙升,国产GPU再攀高峰

   时间:2025-12-21 02:49:29 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在近日举办的一场聚焦全功能GPU技术的开发者大会上,国内GPU企业摩尔线程公布了其覆盖芯片、集群、终端设备的全栈技术布局,并展示了从云端训练到端侧推理的完整解决方案。这场以自主计算架构MUSA为核心的技术盛会,吸引了业界广泛关注。

基于自主研发的MUSA架构,摩尔线程推出了新一代全功能GPU架构“花港”。该架构支持从FP4到FP64的全精度计算,算力密度较前代提升50%,能效比提升10倍。通过集成新一代异步编程模型和MTLink高速互联技术,单卡片间互联带宽达1314GB/s,可支撑超十万卡规模的智算集群部署。架构中内置的AI生成式渲染架构和硬件光线追踪引擎,使国产GPU首次实现对DirectX 12 Ultimate的完整支持,光线追踪性能较前代提升50倍。

在芯片产品方面,摩尔线程同步披露了两款重量级新品。面向AI训练场景的“华山”芯片集成全精度张量计算单元,支持FP4至FP64全精度计算,其浮点算力、访存带宽等关键指标超越国际标杆产品,部分配置达到行业顶尖水平。针对图形渲染的“庐山”芯片则实现性能跃升:3A游戏性能提升至前代的15倍,AI计算性能提升64倍,几何处理性能提升16倍,并配备4倍显存容量和全新硬件光追引擎。

在云端计算领域,摩尔线程宣布建成国内首个万卡级智算集群“夸娥”。该集群浮点运算能力达10EFLOPS,训练算力利用率在Dense大模型上达60%,MOE大模型上达40%,有效训练时间占比超过90%。通过软硬协同优化,集群完整复现了DeepSeek V3的FP8训练过程,自研FP8 GEMM算力利用率高达90%,Flash Attention算力利用率超95%。在推理性能方面,MTT S5000单卡在DeepSeek R1 671B模型上实现突破,Prefill吞吐突破4000 tokens/s,Decode吞吐突破1000 tokens/s,刷新国产GPU推理性能纪录。

面向开发者生态,摩尔线程推出了首款AI算力本MTT AIBOOK。这款搭载“长江”智能SoC芯片的设备,提供50TOPS异构AI算力,配备32GB/64GB LPDDR5X内存和1TB SSD存储。设备预置AI开发环境与工具链,支持Linux开发、Windows办公和Android应用三系统无缝切换,可本地运行最高30B参数的端侧大模型。同步发布的MTT E300模组和预告的AI Cube迷你计算设备,均基于同一SoC架构打造,形成覆盖端边侧的完整计算产品矩阵。

在软件生态建设方面,MUSA 5.0全栈软件实现关键升级。新版本兼容CUDA C和原生MUSA C编程语言,深度适配TileLang、Triton等新兴编程范式,编译器性能提升3倍。通过开源计算加速库、通信库等核心组件,开发者可获取底层优化能力。即将推出的计算光刻库muLitho,将加速OPC光刻计算进程。图形软件栈方面,MUSA架构率先实现硬件级光线追踪加速,支持DirectX Raytracing标准。

大会特别设置的MUSA嘉年华展区,集中展示了图形+AI融合的最新成果。在具身智能领域,摩尔线程发布了MT Lambda仿真训练平台和“端云结合”的MT Robot解决方案,并宣布将于2026年开源关键仿真加速组件Mujoco-warp-MUSA。目前,MUSA生态已与合作伙伴在AI for Science、量子科技、6G通信等前沿领域展开探索,持续拓展全功能GPU的技术边界。

据公开数据显示,截至2025年中,摩尔线程已累计获得超过500项授权专利,其中发明专利占比达93.6%。通过构建从芯片设计到软件生态的完整技术栈,这家国产GPU企业正逐步形成覆盖“芯-边-端-云”的全场景计算能力,为构建自主可控的智能计算生态奠定基础。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version