在人工智能算力领域,英伟达长期占据主导地位,其优势在最新行业研究中得到进一步验证。数据显示,在特定测试条件下,英伟达平台生成单位数量token的成本仅为AMD平台的十五分之一,尽管其硬件单价更高,但综合性能表现使其整体成本效益显著优于竞争对手。
这项由第三方机构开展的基准测试覆盖了2025年第四季度至年末的推理场景,涉及从传统密集模型到前沿混合专家(MoE)架构的全维度评估。测试发现,随着模型复杂度提升,英伟达的架构优势愈发明显。在处理高交互性任务时,其最新一代GB200 NVL72系统展现出压倒性优势,在75 tokens/秒/用户的测试条件下,性能达到AMD MI355X的28倍。
研究指出,MoE架构的普及正在重塑算力竞争格局。这类模型通过将参数拆分为多个专业化子网络,仅激活部分参数处理每个token,从而在保持智能水平的同时降低计算成本。但这种设计也带来新挑战:当专家模块分布在多块GPU时,跨卡通信延迟会导致计算单元闲置,直接影响服务成本。测试表明,无论是英伟达B200还是AMD MI355X,8卡系统在扩展至多节点时都会遭遇性能瓶颈。
英伟达的解决方案是通过NVLink技术将72块GPU整合为统一计算域,提供130TB/秒的互联带宽。配合Dynamo推理框架的动态调度算法,该系统在软件层面实现了类似单块巨型GPU的运作模式。这种端到端设计使其在处理复杂模型时,能有效突破通信限制。测试数据显示,在DeepSeek-R1等前沿推理模型上,GB200 NVL72的峰值吞吐量达到275 tokens/秒/用户,而AMD同等配置下仅能实现75 tokens/秒/用户。
价格对比显示,英伟达GB200 NVL72的每小时GPU租赁价格为16美元,较AMD MI355X的8.60美元高出86%。但性能测试表明,在75 tokens/秒/用户的高负载条件下,英伟达平台的单位美元性能达到AMD的15倍。这意味着生成相同数量token时,英伟达方案的实际成本仅为对手的十五分之一。与上一代H200相比,新系统虽然价格上涨67%,但单位美元性能提升约12倍,单token成本降至前者的十二分之一。
研究同时承认AMD在特定场景仍具竞争力。在处理密集模型或容量驱动型任务时,MI325X和MI355X仍能发挥价值。AMD正在开发的Helios机柜级解决方案预计将在未来12个月内缩小技术差距,但当前在前沿推理模型领域,从芯片设计到软件优化的全栈整合能力已成为决定成本效益的关键因素。









