英伟达近日宣布,在Blackwell平台上通过全栈推理优化,成功将DeepSeek V4模型的单Token处理成本大幅降低。相较于该模型上线初期,当前成本已缩减至原来的五分之一,这一成果使其在行业同类方案中达到最低水平。英伟达明确将单Token成本列为评估AI总拥有成本的关键指标,凸显其在降低AI应用门槛方面的技术突破。
技术实现层面,英伟达构建了覆盖生产运营、应用加速和基础设施访问的三层优化体系。生产运营层通过分布式服务架构实现资源动态调配,结合自动扩缩容机制和内存管理策略,确保系统高效运行;应用加速层聚焦运行时优化,采用计算通信重叠、内核融合等技术提升处理效率;基础设施访问层则直接调用GPU算力、网络带宽及系统内存资源,形成硬件与软件的深度协同。
在性能提升方面,Blackwell平台通过多项创新技术实现突破。分离式服务架构将模型推理与资源管理解耦,大规模专家并行策略使复杂计算任务得以分散处理,基于NVLink的并行通信技术显著减少数据传输延迟。NVFP4精度格式在保持模型准确性的同时降低计算负载,多token预测技术则通过并行处理提升吞吐量。综合优化后,单GPU的token处理能力最高可提升20倍。
此次成本优化不仅体现在硬件效率提升,更得益于软件栈的深度定制。英伟达针对DeepSeek V4模型特性,重新设计了推理流程中的关键环节,包括动态批处理策略、内存访问模式优化以及异构计算资源分配。这些改进使得Blackwell平台在处理大规模语言模型时,既能保持低延迟响应,又能实现高吞吐量输出,为AI商业化应用提供了更具竞争力的解决方案。











