SemiAnalysis旗下InferenceX性能测试平台最新披露的数据显示,AMD ROCm软件栈在适配DeepSeek V4大模型过程中展现出惊人的优化效率。自该模型发布后的两周内,其推理吞吐性能实现了75倍跃升,测试周期覆盖FP4与FP8精度下的8K/1K上下文典型应用场景,数据采集截止至5月8日。
此次性能突破完全基于软件层面优化,未涉及任何硬件改动。测试表明,在保持相同交互响应水平的前提下,系统token处理能力同步提升,有效将大模型推理延迟压缩至更低水平,为终端用户带来更流畅的使用体验。这充分验证了AMD在AI软件生态构建中的快速迭代能力。
技术团队通过两大核心优化实现性能质变:其一将mHC操作与RoPE哈达玛变换深度融合,显著降低CPU运算负荷的同时提升HBM内存带宽利用率;其二对索引器、键值缓存压缩器等关键计算模块采用TileLang与Triton语言重构,使开发迭代效率提升数倍。这些创新使得软件栈能够更高效地调度硬件资源。
尽管取得显著进展,当前ROCm单节点性能与英伟达B200仍存在差距。数据显示,其聚合性能约为B200的20%,距离PD解耦版本则有60%的提升空间。不过技术路线图显示,AMD计划在未来数周内完成剩余优化目标,重点突破内存访问模式与并行计算调度等关键环节。
值得关注的是,AMD ROCm团队在未获取模型权重参数的情况下启动适配工作,仅凭模型接口文档便在14天内完成全流程优化。这种"盲适配"能力不仅体现技术实力,更为AI生态开发者提供了新的协作范式。随着软件栈持续进化,AMD与英伟达在AI计算领域的竞争格局或将迎来新变量。










