英伟达近日宣布,其最新推出的Blackwell Ultra AI架构(GB300 NVL72)在能效与成本方面取得重大突破。通过DeepSeek-R1模型测试,该架构每兆瓦吞吐量较前代Hopper GPU提升50倍,每百万Token处理成本降至原来的1/35。这一成果标志着AI基础设施性能与经济性的双重飞跃。
技术升级是性能跃升的核心驱动力。Blackwell Ultra通过NVLink技术将72个GPU整合为统一计算单元,实现130 TB/s的超高互联带宽,较Hopper架构的8芯片设计实现质的飞跃。配合全新NVFP4精度格式与协同设计架构,该平台在吞吐性能领域确立领先地位。针对长上下文任务场景,GB300的Token成本较上一代Blackwell(GB200)降低60%,注意力机制处理速度翻倍,特别适用于代码库维护等高负载应用。
在AI推理成本优化方面,新架构展现显著优势。相较于Hopper平台,GB300每百万Token处理成本压缩至1/35,即使与GB200相比,长文本处理成本也降至1.5分之一。这种成本效率的提升,得益于TensorRT-LLM库等软件工具的持续优化——该库在四个月内将低延迟工作负载性能提升5倍,显著增强混合专家模型(MoE)的推理吞吐能力。
行业需求变化推动技术迭代加速。OpenRouter《推理状态报告》显示,过去一年中软件编程相关AI查询量占比从11%激增至50%。这类应用要求AI代理在多步骤工作流中保持实时响应,并具备跨代码库的长上下文推理能力。英伟达通过Dynamo团队等研发力量,针对性优化了长文本处理与低延迟响应性能,使GB300在代码生成、系统维护等场景中展现强大适应性。
值得关注的是,英伟达同步预告了下一代Rubin平台。该平台预计每兆瓦吞吐量较Blackwell再提升10倍,进一步巩固其在AI算力领域的领先地位。这一系列技术突破,不仅重塑了AI基础设施的性能标准,更为大规模语言模型的应用落地提供了经济可行的解决方案。










