AMD近日宣布,其开源软件堆栈ROCm正式推出7.2.0版本,为AI计算领域带来多项关键升级。此次更新不仅扩展了硬件兼容性,还通过底层优化显著提升了主流大模型的推理效率,进一步巩固了AMD在异构计算市场的技术优势。
硬件支持方面,ROCm 7.2.0新增对三款消费级显卡和锐龙AI处理器的官方认证。其中Radeon AI PRO R9600D专业卡、Radeon RX 9060 XT LP低功耗卡及Radeon RX 7700游戏卡均通过完整兼容性测试,而最新发布的锐龙AI 400系列处理器则成为首个支持ROCm的消费级CPU平台,标志着AMD加速计算生态向移动端延伸。
针对数据中心场景,新版本在Instinct系列加速器上实现突破性优化。通过内核级代码重构和内存带宽优化,MI355X运行meta Llama 3.1 405B模型时,推理吞吐量提升达40%,同时将端到端延迟压缩至原水平的65%。对于70B参数规模的Llama 3/2模型,MI355X与MI350X的联合优化使训练效率提升28%,特别在注意力机制计算环节展现出显著优势。
在国产AI生态适配方面,ROCm 7.2.0针对智谱GLM-4.6模型优化了GEMM算子实现,使矩阵运算效率提升35%;同时深度整合DeepSeek开源通信库,在MI300X集群上实现跨节点通信延迟降低22%。这些改进有效提升了国产大模型在AMD平台上的训练稳定性与扩展性。
系统级改进同样值得关注。新版本HIP运行时通过动态指令调度技术,使多线程任务执行效率提升18%;新增的多GPU节点电源管理功能,可根据负载自动调节加速器功耗,在保持性能的同时降低数据中心整体能耗。这些底层优化使ROCm在科学计算、金融建模等传统优势领域保持竞争力。
随着AI模型参数规模持续突破万亿级,硬件与软件的协同优化已成为决定计算效率的关键因素。AMD此次通过ROCm 7.2.0的全面升级,不仅强化了自身生态的技术壁垒,更为开发者提供了覆盖消费级到企业级的完整加速计算解决方案。










