英伟达GTC大会上,黄仁勋以“Token之王”的新身份亮相,尽管迟到15分钟,但并未影响这场被业界视为AI领域年度盛典的关注度。450家企业赞助、1000场技术分会、2000位演讲者、110台机器人同台,规模远超传统技术会议,更像一场全球AI从业者的“朝圣”。
黄仁勋的演讲并未直接切入芯片发布,而是以25年技术演进为脉络:从GeForce游戏显卡到CUDA架构,从RTX渲染技术到云计算合作,最终落脚于当下爆火的OpenClaw与token经济。他指出,AI从感知到生成、推理再到执行,每一步都伴随算力消耗的指数级增长,而英伟达的目标是成为这一进程的核心引擎。
“到2027年,英伟达营收将突破1万亿美元。”这一数字引发全场欢呼,较去年GTC上预测的5000亿美元直接翻倍。黄仁勋强调,这一预期基于Blackwell和Rubin架构的订单覆盖,且实际需求可能更高。消息公布后,英伟达股价在现场掌声中同步上扬。
黄仁勋重点解读了“Token工厂经济学”,通过一张纵轴为“每瓦Token吞吐量”、横轴为“每秒Token速率”的图表,构建起完整的商业模型:免费层以高吞吐获客,中间层以3-6美元/百万Token服务普通用户,高级层定价45美元/百万Token面向大模型深度推理,顶级层则以150美元/百万Token承接超长研究任务。他直言:“全球CEO都该研究这张图。”
性能对比数据成为另一焦点。Semi Analysis的基准测试显示,Grace Blackwell NVLink 72的每瓦token吞吐量较上一代Hopper H200提升50倍,而黄仁勋最初仅宣称35倍。面对“故意保留余地”的质疑,他坦然承认:“实际就是50倍。”这一数据背后,是数据中心功率的物理限制——在1GW功率下,每瓦性能直接决定token成本。
下一代计算平台Vera Rubin的发布将气氛推向高潮。这一系统集成7种芯片、5种机架,形成垂直优化的巨型计算机:Rubin GPU采用全新架构,支持NVLink 72全互联,算力达3.6 exaflops,带宽260TB/s;Vera CPU作为全球首款采用LPDDR5的服务器处理器,单线程性能与能效比突出,甚至被黄仁勋调侃“原本没打算单独卖,结果成了数十亿美元业务”;Groq LP30推理芯片则以500MB片上SRAM和确定性数据流架构,专为极速推理设计。
散热与互联的突破成为Vera Rubin的核心创新。液冷方案覆盖全部组件,连NVLink交换机也浸入冷却液,板级集成互联取代传统线缆,使机架安装时间从两天缩短至两小时;全球首款量产CPO(共封装光学)交换机Spectrum X则通过光学器件直接封装到芯片上,消除电-光转换延迟,支持72块GPU实现260TB/s全对全带宽。黄仁勋强调:“铜缆与光学不是替代关系,未来都需要更多产能。”
针对高吞吐与低延迟的矛盾需求,英伟达提出“分离式推理”方案:Vera Rubin负责Pre-fill和attention计算,Groq承接decode阶段的高带宽需求。通过Dynamo推理框架拆分流水线,最高价值推理层吞吐量再提升35倍,并解锁千token/秒的极速生成。黄仁勋建议,高吞吐工作负载可100%使用Vera Rubin,编程密集型任务则需分配25%数据中心功率给Groq。
发布会的尾声,黄仁勋将话题转向开源项目OpenClaw。他以“60岁父亲用AI自动化精酿啤酒生意”为例,阐释其作为“Agent计算机操作系统”的定位:资源管理可调用大语言模型、访问文件系统;调度系统支持cron jobs与子Agent生成;I/O系统实现多模态交互。他类比道:“Windows定义PC时代,Linux定义服务器时代,OpenClaw将定义Agent时代。”
为应对企业安全顾虑,英伟达同步推出企业版NeMo Claw,增加策略引擎、网络护栏与隐私路由器。黄仁勋甚至预言:“未来工程师的招聘筹码将包括年度token预算,这可能成为硅谷新标准。”
彩蛋环节,黄仁勋预告了下一代计算架构Feynman,其将整合全新GPU、LP40推理芯片与Rosa CPU,并通过Kyber技术实现铜线与光学的双扩展。更引人注目的是,英伟达正与合作伙伴开发太空数据中心计算机Space One,试图在近地轨道解决辐射散热难题,将AI算力推向“字面意义上的无处不在”。
直播回放链接:https://www.youtube.com/watch?v=jw_o0xr8MWU











