纽约时报近期披露,硅谷正兴起一股“tokenmaxxing”新潮流,meta与OpenAI的工程师们在企业内部展开激烈竞争,通过比较推理token消耗量来一决高下。黄仁勋在GTC 2026大会上更是抛出惊人提议,建议企业将token预算作为工程师薪酬体系的重要组成部分。OpenAI的数据显示,过去一年间,企业客户在推理token上的支出呈现出爆炸式增长,增幅高达320倍。
面对需求侧的井喷式增长,供给侧如何应对成为焦点。黄仁勋在主题演讲中首次将“Tokenomics”概念引入AI领域,重新定义为衡量推理效率的经济指标,其核心在于“Tokens per Watt”,即每瓦特电力能产出的token数量。他预测,到2027年,NVIDIA的Blackwell和Vera Rubin芯片订单规模将达到1万亿美元。国内大模型厂商虽未使用“Tokenomics”这一术语,但“推理成本”或“token单价”的讨论早已甚嚣尘上,本质问题直指AI时代的基础设施建设——谁来构建支撑推理需求的“发电厂”与“电网”?
过去三年,行业普遍认为,通过扩大数据中心规模、增加GPU数量即可解决问题,这一策略在模型训练阶段确实行之有效。然而,推理与训练的逻辑截然不同:训练是“一次性工程”,推理则是“高频次、低延迟”的持续服务。当推理请求如潮水般涌来,将所有GPU集中于少数超大型数据中心反而可能成为瓶颈,真正的限制因素并非算力,而是物理定律——光速。
在GTC 2026大会上,全球最大的分布式计算平台Akamai给出了系统性解决方案。这家拥有4400多个边缘节点、覆盖130多个国家的CDN领域先驱,通过三十年的技术积累,将业务版图从内容分发扩展至安全、云计算,最终切入AI推理赛道。其核心论点清晰:AI推理必须走向分布式架构。
Akamai CTO办公室高级副总裁Andy Champagne以“个人AI导播”场景为例:一场F1比赛有20多个4K机位同时拍摄,传统模式下所有观众看到的是相同的画面;若要实现个性化直播,如根据观众偏好切换车手或镜头角度,则需在边缘节点实时合成数百万路不同的4K视频流。这种需求显然无法通过单一数据中心满足。类似逻辑在实时广告插入、游戏NPC响应、AI语音助手等场景中同样适用——AI一旦嵌入实时应用,就必须满足其原有的延迟要求。
物理定律不会因GPU性能提升而改变。光在光纤中的传播速度约为每秒20万公里,从伦敦到美国东海岸的数据中心,单程延迟约28毫秒,往返则达56毫秒;东京至美国的往返延迟更高达134毫秒,这还未计算计算时间。对比游戏NPC需在50毫秒内响应、实时广告插入需在100毫秒内完成全链路处理的场景,集中式架构的局限性显而易见。
延迟之外,带宽成本也是集中式架构的致命伤。Andy Champagne计算发现,1GW算力若集中于单一数据中心,使用Blackwell芯片进行视频推理时,出口带宽需求达75 Tbit/s;若分布至20个区域节点,每个节点仅需3.75 Tbit/s,集中式架构的出口流量是分布式的20倍。若采用下一代Vera Rubin芯片,集中式出口带宽将飙升至135 Tbit/s,芯片性能越强,集中式架构的带宽瓶颈反而越严重。Comcast专家从排队论角度分析指出,集中式与分布式部署仅14毫秒的延迟差异,就会导致约30%的GPU利用率差距,这是物理定律层面的优势,无法通过技术优化弥补。
Akamai的分布式推理逻辑与其三十年发展历程一脉相承。Andy Champagne将AI发展时间线与互联网类比:互联网普及率已超95%,AI目前仅约7%,正处于“MySpace时代”,未来潜力巨大。当年Akamai通过CDN技术将集中式内容分发转变为分布式架构,如今面对AI推理需求,方法论依然适用——“AI工厂创造智能,AI Grid分发智能”,没有分布式推理的AI,如同没有CDN的互联网。
GTC 2026期间,NVIDIA将Akamai Cloud与AWS并列列为首批提供RTX PRO Blackwell Server Edition实例的云服务商,黄仁勋的合作伙伴展示墙上,Akamai赫然在列。NVIDIA电信业务全球副总裁Chris Penrose评价称,Akamai通过运营AI Grid,为生成式AI、AI Agent和物理AI构建了连接组织,将智能直接推送至数据所在地。Akamai正式发布的全球规模NVIDIA AI Grid参考架构方案,将NVIDIA AI基础设施深度集成至自身分布式网络,成为首家将AI Grid从概念推向运营级别的厂商,底层采用NVIDIA AI Enterprise软件栈、Blackwell架构GPU和BlueField DPU加速网络。
对于正在部署推理基础设施的AI团队,现实问题不容忽视。首先,并非所有推理任务都需要H100这类顶级芯片。Akamai部署的RTX PRO 6000 Blackwell Server Edition在Token经济性上表现突出,每小时2.5美元的全包价下,每美元Token产出是同类方案的2.1倍。其96GB GDDR7显存和4000 TOPS FP4算力,在NVFP4精度下推理吞吐量比H100高60%以上,视频编解码能力更达112至132路,远超定位训练的H100。风冷设计也降低了边缘机房的部署门槛。
其次,数据出站费用常被忽视。AI产品服务全球用户时,视频和模型响应产生的出站流量成本可能超过GPU租用费用。Akamai的出站价格仅为每GB 0.005美元,与主流云厂商形成鲜明对比。边缘部署的经济性在于,推理结果在本地生成并交付,无需跨越大洋传输。
最后,调度系统比算力更难构建。Akamai的AI编排器并非传统负载均衡工具,而是综合考虑模型亲和性、GPU显存占用、KV Cache状态等AI场景特有因素,实现推理请求的实时路由。现场演示中,推理请求从巴黎节点无缝切换至加州节点,用户无感知。这一能力源于Akamai近三十年的流量调度经验,在AI场景中自然延伸。目前,Akamai的Blackwell GPU节点已覆盖欧洲、亚太和美洲的19个区域,配合4400多个边缘入网点,为出海AI团队提供了东京、新加坡、孟买、雅加达等关键亚太节点的部署选项。
Akamai的转型路径,折射出互联网基础设施的演进逻辑。其差异化优势在于,未从零建设数据中心,而是将运营近三十年的全球分布式网络转化为AI推理底座。这一策略能否成功,取决于其能否跟上AI硬件迭代速度,以及边缘推理市场需求是否如预期爆发。但对于中国出海AI创业者而言,全球化部署推理能力已从“未来规划”变为“当下需求”——合规要求、延迟门槛、成本压力,是出海时必须跨越的三座大山。Akamai的边缘推理平台提供了一种新选择:无需自建全球基础设施,也无需依赖少数超大规模云,而是借助覆盖130多个国家的分布式网络,将推理服务部署至离用户最近的地方。









