ITBear旗下自媒体矩阵:

摩尔线程MUSA软件栈创新实践:加速大规模集群AI训练效率

   时间:2025-08-02 02:24:07 来源:爱集微编辑:快讯团队 IP:北京 发表评论无障碍通道
 

在WAIC2025大会期间,摩尔线程技术分享日活动吸引了众多业内人士的关注。摩尔线程GPU计算软件开发总监吴庆在活动中,以《MUSA软件栈助力KUAE集群释放无限潜能》为主题,深入分享了摩尔线程在MUSA软件栈方面的创新实践。

吴庆首先介绍了MUSA驱动和运行时库在KUAE集群中的坚实底座作用。他强调,推理场景对Kernel延时极为敏感,而摩尔线程通过极致高效的MUSA驱动和运行时库,提供了高效率的任务调度能力,使用户的Kernel启动开销大幅降低。为了直观说明这一点,吴庆举了一个生动的例子:就像炎炎夏日里,人们希望一上车就能享受到舒适的温度,通过软硬协同,提前通过手机开启车内空调,上车后即可享受清凉。MUSA驱动和运行时库正是通过类似的方式,将调度开销前置,最大限度地降低了Kernel之间的调度延时开销。

接着,吴庆详细阐述了MUSA软件栈中的批量任务下发和引擎间依赖解析两大关键技术。他提到,批量下发计算和通信任务可以将近千次下发开销优化为单次,从而减少GPU等待时间。这一技术类似于汽车座椅的一键记忆功能,将一系列操作打包,一次完成。而引擎间依赖解析则通过硬件解析引擎间的依赖做同步,任务流之间的依赖解析延时大幅降低至1.5微秒,优于业界头部算力卡。

吴庆还介绍了MUSA软件栈中的调优工具接口MUPTI和GPU错误转存功能(GCD)。MUPTI专门用于性能分析和事件追踪,帮助开发者优化MUSA应用程序。而GCD则用于在GPU程序崩溃或发生错误时生成详细的信息,精确保存错误,极大提升了问题定位的效率。

在算子库方面,吴庆表示,MUSA算子库生态日趋完善,性能与广度兼备。摩尔线程提供了三大算子库:极致性能的muDNN、易用的MUTLASS以及即将发布的MUSA AI Tensor Engine开源推理算子库。muDNN覆盖常见的前向和反向算子,支持完整的XMMA和Tensor Core全精度及所有量化模式。MUTLASS则是一个高性能的线性代数模板库,可极大降低自定义算子的开发工作量。而MUSA AI Tensor Engine则面向大语言模型,提供用户友好的Python API,进一步降低开发者使用门槛。

最后,吴庆介绍了摩尔线程在高性能集合通信库及通算并行方面的创新。他提到,大模型分布式训练的主要瓶颈是通信,而摩尔线程在MTT S5000上支持MTLINK 2.0,配备了GPU异步通信引擎,实现了高性能通信技术与计算的高度并行。通过全互联拓扑的高效通信算法,摩尔线程大幅降低了通信延迟,并充分利用全互联的拓扑优势,实现了高效的Scale-up通信。在高效Scale-out跨节点通信方面,摩尔线程结合通信库做了网卡拓扑感知与自适应优化,实现了和8张单口网卡一样的RDMA通信效率。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  开放转载  |  滚动资讯  |  争议稿件处理  |  English Version