在近期举办的CES 2026媒体问答会上,英伟达首席执行官黄仁勋针对行业热议的“廉价内存降本”话题发表了不同看法。他直言,芯片制造或许是一次性投入,但软件生态的维护却是长期工程,二者成本结构截然不同。这一观点背后,是英伟达对AI算力市场“长期价值”的深度思考——相比短期硬件成本压缩,软件生态的统一性与可持续优化更能决定产业竞争力。
黄仁勋将当前AI行业定义为“Token经济学”时代,并指出“每瓦/每美元Token生成量”已成为衡量技术效率的核心指标。他强调,英伟达坚持统一的内存架构与软件栈,尽管初期硬件成本较高,但能避免生态碎片化风险。当底层软件栈优化升级时,全球所有基于该架构的AI系统均可同步受益,这种“一次投入、长期复利”的模式,最终将降低用户的总体拥有成本(TCO)。
开源模型的爆发式增长成为问答会上的另一焦点。黄仁勋透露,目前全球约四分之一的Token生成量来自开源模型,这一数据远超行业预期。他分析称,开源生态的繁荣正重塑AI部署格局——从超大规模云服务商向企业本地集群加速渗透,推动了AI技术的民主化进程。这一趋势对硬件供应商提出了新要求:既要支持闭源模型的极致性能,也要兼容开源生态的灵活扩展。
技术突破方面,黄仁勋重点介绍了Vera Rubin平台的模块化设计。传统Grace Blackwell系统因集成度高,单点故障需整机架下线维修,而Rubin平台采用托盘式架构,支持NVLink等关键组件热插拔,实现“不停机维护”。据现场演示,该设计将节点组装时间从2小时压缩至5分钟,同时通过简化线缆布局与全液冷散热(从80%升级至100%),显著提升了系统可靠性与运维效率。
针对算力扩张的电力瓶颈,黄仁勋指出,现代AI推理任务引发的瞬时功耗波动(幅度达25%)已成为数据中心的最大挑战。为应对这一问题,Rubin平台通过系统级电子设计,在机架内部动态平衡功耗,即使单颗GPU热设计功耗(TDP)高达1800W,也能向电网呈现稳定负载曲线。这一创新使运营商无需预留过量电力冗余,电力利用率可接近理论极限,为大规模AI部署扫清了能源障碍。











