ITBear旗下自媒体矩阵:

DeepSeek V4助力!AMD ROCm两周内推理性能飙升75倍 直追NVIDIA CUDA

   时间:2026-05-11 10:55:45 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

SemiAnalysis旗下InferenceX性能测试平台最新披露的数据显示,AMD ROCm软件栈在适配DeepSeek V4大模型过程中展现出惊人的优化效率。自该模型发布后的两周内,其推理吞吐性能实现了75倍跃升,测试周期覆盖FP4与FP8精度下的8K/1K上下文典型应用场景,数据采集截止至5月8日。

此次性能突破完全基于软件层面优化,未涉及任何硬件改动。测试表明,在保持相同交互响应水平的前提下,系统token处理能力同步提升,有效将大模型推理延迟压缩至更低水平,为终端用户带来更流畅的使用体验。这充分验证了AMD在AI软件生态构建中的快速迭代能力。

技术团队通过两大核心优化实现性能质变:其一将mHC操作与RoPE哈达玛变换深度融合,显著降低CPU运算负荷的同时提升HBM内存带宽利用率;其二对索引器、键值缓存压缩器等关键计算模块采用TileLang与Triton语言重构,使开发迭代效率提升数倍。这些创新使得软件栈能够更高效地调度硬件资源。

尽管取得显著进展,当前ROCm单节点性能与英伟达B200仍存在差距。数据显示,其聚合性能约为B200的20%,距离PD解耦版本则有60%的提升空间。不过技术路线图显示,AMD计划在未来数周内完成剩余优化目标,重点突破内存访问模式与并行计算调度等关键环节。

值得关注的是,AMD ROCm团队在未获取模型权重参数的情况下启动适配工作,仅凭模型接口文档便在14天内完成全流程优化。这种"盲适配"能力不仅体现技术实力,更为AI生态开发者提供了新的协作范式。随着软件栈持续进化,AMD与英伟达在AI计算领域的竞争格局或将迎来新变量。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version