ITBear旗下自媒体矩阵:

摩尔线程Torch-MUSA v2.7.0发布:功能性能双提升 助力AI高效计算

   时间:2025-11-28 13:29:50 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

摩尔线程近日宣布,其专为PyTorch深度学习框架打造的MUSA扩展库——Torch-MUSA迎来v2.7.0版本升级。此次更新距离上一次v2.5.0版本发布仅间隔一个月,标志着该库在迭代速度与功能演进上持续加速。新版本不仅在计算能力、内存管理等方面实现突破,更通过算子扩展与系统优化进一步巩固了性能优势。

版本同步策略的调整成为此次升级的重要基础。自v2.5.0版本起,Torch-MUSA开始采用与PyTorch主版本号对齐的命名规则,此举显著简化了开发者的版本管理流程。在硬件兼容性方面,新版本全面支持MUSA SDK 4.2.0至4.3.0及后续版本,确保与最新开发工具链的无缝衔接。目前该库已累计支持超过1050个专属算子,覆盖深度学习训练与推理的核心需求。

计算加速能力的扩展是本次升级的核心亮点。新版本深度整合了muFFT快速傅里叶变换库与muSolver线性求解器库,使得复杂数学运算的执行效率获得质的提升。针对边缘计算场景,开发团队在基于Arm架构的SoC设备上实现了统一内存管理(UMM)支持。通过UMA(统一内存寻址)技术,GPU与CPU可共享同一物理内存空间,彻底消除GPU端的重复内存分配,减少主机与设备间的数据拷贝次数,并允许GPU直接访问CPU分配的内存区域,内存开销降低达30%以上。

算子支持体系迎来全面扩容。新增算子涵盖位运算(ilshift/irshift)、序列填充(replication_pad1d_bwd)、概率计算(angle/logit)、语音识别(ctcLossTensor系列)等十余个领域,同时扩展了稀疏矩阵(CSR格式)操作与量化算子支持范围。针对开发者反馈的问题,修复了torch.norm形状计算错误、空输入下argmax/argmin异常等已知缺陷,并新增tensor.is_musa方法用于设备类型检测。性能优化方面,var/std统计计算、3D卷积、层归一化等操作的执行效率提升15%-20%,reduce_sum操作新增对uint8输入与int64输出的支持。

系统级功能增强包含三大方向:开放torch.musa.mccl.version接口用于版本查询,新增getCurrentMUSABlasHandle系列API强化底层控制能力,优化FSDP2流水线并行策略使训练内存占用减少25%。这些改进使得大规模模型训练的稳定性与资源利用率得到显著提升。

开发团队透露,Torch-MUSA将保持与PyTorch生态的紧密同步,下一版本计划实现对PyTorch 2.9.0的支持,并持续在算子覆盖、硬件加速、内存管理等领域进行深度优化。该项目已通过GitHub平台完全开源,开发者可访问指定地址获取完整代码与文档支持。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version