当地时间3月16日,在年度开发者大会NVIDIA GTC 2026上,黄仁勋再次展示了英伟达对于人工智能产业未来的整体构想。
从新一代AI计算架构、推理时代的数据中心商业模式,到围绕Agent构建的软件生态和产业联盟,本届大会呈现的已经不仅是单一硬件产品的升级,而是一套围绕算力展开的完整AI基础设施体系。
在演讲中,黄仁勋大胆给出了一个预测:到2027年,围绕AI芯片与基础设施的市场规模可能达到1万亿美元。
随着AI应用从模型训练逐渐转向大规模推理与Agent系统,英伟达正在尝试重新定义整个产业的技术路径与商业逻辑。
从GPU到AI系统:Vera Rubin架构登场
本届大会最重要的技术发布,是英伟达下一代AI计算平台NVIDIA Vera Rubin。与过去推出单一GPU不同,这一次英伟达强调的是系统级架构:从GPU、CPU到网络互联与软件框架全部进行垂直整合。
黄仁勋在舞台上展示的不是一块芯片,而是一整套机架级计算系统,其设计目标是把整个数据中心视为一台超级计算机进行优化。
核心计算组件Rubin GPU采用台积电3nm工艺和双芯片封装设计,拥有3360亿晶体管,配备288GB HBM4显存和22TB/s带宽,AI推理性能达到约50 PFLOPs。
配套的Vera CPU则采用定制Arm架构,拥有88个核心和176线程,并在数据中心环境中首次采用LPDDR5内存,针对AI Agent场景下的高单线程性能和数据处理需求进行了优化。
英伟达表示,这一CPU如果单独销售也有可能成为一个数十亿美元规模的业务。
Groq加入:为AI推理设计的新型芯片
随着生成式AI进入应用阶段,推理计算成为新的性能瓶颈。GPU在高吞吐并行计算方面具有优势,但在极高速度的token生成阶段效率会下降。
而Groq的LPU采用完全不同的设计思路:确定性数据流架构以及大量SRAM存储,通过编译阶段完成调度,从而显著降低运行时延迟。
这种结构非常适合token生成,但SRAM容量有限,单颗芯片只有约500MB,无法直接容纳大型模型。
英伟达提出的解决方案是将推理任务拆分:GPU负责prefill和attention等需要大算力和大内存的部分,而LPU负责decode与token生成。这种架构被称为disaggregated inference(解耦推理),两种处理器通过高速网络协同工作,从而在高吞吐和低延迟之间取得平衡。
Agent时代的软件生态
除了硬件层面的升级,英伟达在软件生态方面也提出新的战略。
随着AI Agent技术迅速发展,黄仁勋将开源框架OpenClaw定义为一种新的计算平台,并将其与Windows、Linux和Kubernetes等基础软件相提并论。在这一框架之上,英伟达推出NemoClaw,为企业部署Agent系统提供安全与管理能力,包括策略控制接口、网络访问边界以及数据隐私保护机制。
英伟达将这一关系类比为CUDA与GPU生态之间的关系:OpenClaw提供Agent操作系统,而NemoClaw则提供企业级开发平台和工具链。与此同时,英伟达还宣布成立Nemotron Coalition,推动多种AI模型的发展,包括语言模型、机器人模型、自动驾驶模型以及气候模拟系统等。
数据中心成为“Token工厂”
在技术之外,黄仁勋还提出了一种新的AI产业叙事:未来的数据中心将成为生产Token的工厂。
“数据中心是生产token的工厂;推理是工作负载,token是新商品,算力等于营收;未来每个CEO都要盯着自己token工厂的效能看。”
在他看来,AI的发展正经历新的拐点。从聊天机器人到具备推理能力的系统,再到能够执行任务的Agent,每一次能力跃迁都会显著增加单次推理所需的算力,同时也推动整体使用量快速增长。基于这一趋势,英伟达提出了新的AI服务分层模型,从免费层到Ultra层,对应不同模型规模、上下文长度和响应速度,同时也对应不同的token价格。
在这一体系下,算力基础设施直接决定了AI服务的经济可行性,而更高端的AI服务则需要更强大的计算平台。
AI进入太空
在GTC大会上,英伟达还公布了一项更加前瞻性的计划:将AI计算能力扩展到轨道数据中心。
公司发布了NVIDIA Space-1 Vera Rubin模块,其AI计算能力据称可达到NVIDIA H100GPU 的约25倍。黄仁勋在声明中表示:“太空计算,这片最后的疆域,已经到来。随着我们部署卫星星座并深入探索太空,智能必须存在于数据产生的任何地方。”
目前,包括Axiom Space、Planet Labs和Kepler Communications等企业已经在使用英伟达计算平台执行空间任务。随着卫星网络和轨道数据处理需求增加,太空计算将是未来AI基础设施中重要的一环。
AI进入更多产业场景
围绕AI基础设施,英伟达在多个产业领域也宣布了新的合作。例如IBM将把GPU加速能力整合到其AI数据平台watsonx.data中,通过GPU原生数据分析提升企业数据处理效率。在测试案例中,数据查询时间从传统CPU环境下的约15分钟缩短至约3分钟,同时显著降低成本。
同时,Amazon也宣布与英伟达合作,将NVIDIA DRIVE AGX车载计算平台与Amazon Alexa Custom Assistant结合,用于打造能够理解自然语言和环境语境的车载AI助手。
在计算机图形领域,英伟达还发布了NVIDIA DLSS 5技术,通过神经渲染模型增强游戏画面质量,使实时渲染更接近电影级视觉效果。黄仁勋称其为“图形技术的GPT时刻”。
Feynman架构提前曝光
根据规划,Blackwell架构之后将是2026年的Vera Rubin,随后在2027年推出Rubin Ultra,而2028年则会迎来全新的NVIDIA Feynman架构。
Feynman将对整个系统进行全面升级,包括新GPU、LP40 LPU、Rosa CPU以及下一代NVLink互联。与此同时,新一代Kyber机架结构也将改变计算节点的布局方式,以支持更高密度的GPU部署。这种按年度更新的节奏显示出英伟达试图以更快速度推动AI基础设施迭代。
本届GTC展示的并不仅是新芯片,而是一套新的AI产业逻辑。











