全球AI算力芯片领军企业英伟达近日宣布推出全新专用GPU Rubin CPX,该芯片专为处理长上下文工作负载设计,可显著提升AI推理效率,尤其在编程、视频生成等需要超长上下文窗口的场景中表现突出。据介绍,Rubin CPX是首款针对一次性处理数百万级tokens并执行AI推理的专用芯片,其核心优势在于通过硬件架构创新实现计算资源的优化配置。
英伟达CEO黄仁勋指出,传统GPU在处理AI推理时存在资源浪费问题。推理过程可分为上下文处理与生成输出两个阶段,前者属于计算密集型任务,需要高吞吐量处理能力;后者则受内存带宽限制,依赖高速数据传输。当前顶级GPU均针对生成阶段设计,配备昂贵HBM内存,但在上下文处理阶段这些资源并未被充分利用。Rubin CPX通过分离两个阶段,采用30 petaFLOPs算力的NVFP4架构与128GB GDDR7内存,专门优化长上下文处理性能。
基于Rubin架构的下一代旗舰AI服务器NVIDIA Vera Rubin NVL144 CPX将集成36个Vera CPU、144块Rubin GPU及144块Rubin CPX GPU。测试数据显示,搭载CPX的Rubin机架在处理大上下文窗口时,性能较当前旗舰GB300 NVL72提升最高达6.5倍,单台机架可提供8 exaFLOPs算力、100TB高速内存及1.7PB/s内存带宽,算力较前代提升7.5倍。
从商业价值看,英伟达强调该解决方案可显著提升数据中心投资回报率。部署价值1亿美元的新芯片组合,预计可为客户带来50亿美元收入。这一优势源于资源利用效率的提升——约20%的AI应用因等待首个token生成而产生延迟,例如解码10万行代码需5-10分钟,视频生成模型的预处理阶段更易因逐帧处理积累延迟,导致当前技术多用于短片制作。
在产品形态上,Rubin CPX将提供两种部署方案:既可与Vera Rubin GPU集成于同一托盘,也可作为独立机架向已订购NVL144的客户销售,确保芯片数量与Rubin机架完全匹配。该产品预计于2026年底出货,作为Rubin系列的首发衍生型号,其设计理念标志着AI硬件架构从通用型向场景专用型的转变。