ITBear旗下自媒体矩阵:

黄仁勋预言推理拐点已至,边缘推理能否成为AI时代新基建?

   时间:2026-03-26 13:39:31 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

硅谷最近兴起一种名为“tokenmaxxing”的新潮流,meta和OpenAI的工程师们甚至在公司内部设立了token消耗排行榜,竞争谁的使用量更高。在GTC 2026大会上,英伟达CEO黄仁勋提出了一个更为激进的想法,建议企业为工程师提供token预算,作为工资之外的额外收入。OpenAI的数据显示,过去一年中,企业客户在推理token上的消耗量激增了约320倍,需求呈现爆炸式增长。

面对如此庞大的需求,供给端如何应对?黄仁勋在同场演讲中引入了“Tokenomics”概念,将其从加密货币领域延伸至AI推理经济学,核心指标是“每瓦特电力产出的token数量”。他宣称,推理技术的拐点已经到来,英伟达预计到2027年,Blackwell和Vera Rubin芯片的订单量将达到1万亿美元。国内大模型厂商也在讨论类似问题,只是用“推理成本”或“token单价”等术语表达。无论哪种说法,核心问题都是:当token成为AI时代的“水电煤”,谁来建设基础设施?

过去三年,行业普遍认为解决方案是建设更大的数据中心并增加GPU数量。这一策略在训练阶段完全可行,但推理与训练的逻辑截然不同。训练是“一次性工程”,而推理需要重复数十亿次,且对延迟极为敏感。当推理请求如洪水般涌来时,将所有GPU集中在少数超大型数据中心反而可能成为瓶颈。问题的关键不在于算力,而在于物理限制,尤其是光速。

在今年的GTC大会上,一家名为Akamai的公司对这一问题给出了系统性解答。尽管国内读者可能对其不熟悉,但Akamai是全球CDN概念的开创者,也是目前最大的分布式计算平台,拥有超过4400个边缘节点,覆盖130多个国家,承载着全球近三分之一的互联网流量。该公司经历了三次转型,从CDN到安全,再到云计算和AI。今年GTC上,Akamai的两个主题演讲都围绕一个核心观点:AI推理必须走向分布式。

Akamai首席技术官办公室高级副总裁Andy Champagne描述了一个“个人AI导播”的场景:在一场F1比赛中,20多个4K摄像头同时拍摄,传统做法是由导播间统一切换镜头,所有观众看到的画面相同。但如果每个观众都能看到根据个人偏好定制的直播流,比如喜欢的车手或镜头角度,就需要在边缘实时合成个性化视频。几百万路不同的4K视频流不可能由单一数据中心处理。类似逻辑也适用于游戏NPC响应、实时广告插入、AI语音助手、电商推荐引擎等场景。AI一旦嵌入实时应用,就必须满足该应用原有的延迟要求。

物理定律不会因GPU速度提升而改变。光在光纤中的传播速度约为每秒20万公里,从伦敦到美国东海岸数据中心的单程延迟约为28毫秒,往返则为56毫秒;从东京出发的往返延迟更高达134毫秒,这还不包括计算时间。考虑到这些场景的延迟要求,将推理任务全部集中在少数数据中心显然不可行。

除了延迟,带宽也是问题。Andy Champagne计算发现,1GW算力若集中在一个数据中心使用Blackwell芯片进行视频推理,出口带宽需求为75 Tbit/s;若分布到20个区域节点,每个节点仅需3.75 Tbit/s。集中式架构的出口流量是分布式的20倍,网络成本差距显著。若使用下一代Vera Rubin芯片,集中式架构的出口带宽需求将飙升至135 Tbit/s,芯片速度越快,集中式架构的出口瓶颈越严重。Comcast的一位嘉宾从排队论角度分析指出,在相同GPU和模型条件下,集中式与分布式部署仅14毫秒的往返延迟差异,就会导致约30%的GPU利用率差距。他强调:“这是物理定律层面的优势,无法通过batching或提高tokens/s来弥补。”

Andy Champagne将AI的发展时间线与互联网进行类比:互联网普及率已超过95%,而AI目前约为7%。他认为AI仍处于“MySpace时代”,未来潜力巨大。这一类比揭示了Akamai布局分布式推理的底层逻辑:近三十年前,该公司解决了网页和视频的集中分发问题;如今,它试图用同样的方法解决AI推理的分发问题。他总结道:“AI工厂创造智能,AI Grid分发智能。”没有分布式推理的AI,就像没有CDN的互联网。

在GTC期间,英伟达将Akamai Cloud与AWS一同列为首批提供RTX PRO Blackwell Server Edition实例的云服务商。黄仁勋在演讲中展示的合作伙伴墙上,Akamai赫然在列。英伟达电信业务全球副总裁Chris Penrose评价称,Akamai通过运营AI Grid,正在为生成式AI、AI Agent和物理AI构建连接组织,将智能直接推送到数据所在的地方。Akamai还正式发布了全球首个基于NVIDIA AI Grid参考架构的解决方案,将NVIDIA AI基础设施深度集成到自身分布式网络中,成为首家将AI Grid从概念推向运营级别的厂商。

对于正在考虑推理部署的AI团队,有几个现实问题需要面对。首先,并非所有推理任务都需要H100这类高端GPU。Akamai部署的RTX PRO 6000 Blackwell Server Edition是一个值得关注的选项:其每小时全包价为2.5美元,每美元token产出是同类方案的2.1倍;配备96GB GDDR7显存和4000 TOPS FP4算力,在NVFP4精度下推理吞吐量比H100高出60%以上,视频编解码能力更是H100所不具备的。其风冷设计降低了边缘机房的部署门槛。

其次,数据出站费用(Egress)常被忽视。许多团队在做预算时仅关注GPU租用价格,却忽略了全球服务产生的出站流量成本可能远高于GPU费用。边缘部署的经济逻辑之一在于推理结果在本地生成和交付,无需跨越大半个地球回传。Akamai的出站价格为每GB 0.005美元,与三大云厂商差距明显。

最后,调度比算力更难。将GPU分布到全球各地只是第一步,更难的是让每个请求找到最合适的机器。Akamai展示的AI编排器并非传统负载均衡,而是考虑模型亲和性、GPU显存占用、KV Cache状态等AI场景特有因素进行实时路由决策。现场演示中,推理请求从巴黎节点无缝切换到加州节点,用户无感知。这背后是Akamai近三十年流量调度经验的自然延续。目前,Akamai的Blackwell GPU节点已覆盖欧洲、亚太和美洲的19个节点,配合4400多个边缘入网点协同工作,东京、新加坡、孟买、雅加达等亚太节点对出海团队尤为重要。

Akamai的转型路径反映了互联网基础设施的演进方向:它没有从零建设数据中心,而是将已运行近三十年的全球分布式网络转化为AI推理的底座。这一策略能否成功,取决于其能否跟上AI硬件更新速度,以及边缘推理市场需求是否如预期爆发。对中国出海AI创业者而言,全球化部署推理能力已从“未来问题”变为“当下挑战”。合规、延迟和成本是出海时最现实的三座大山,而Akamai的边缘推理平台提供了一种新选择:无需自建全球基础设施,也无需依赖少数超大规模云,而是借助覆盖130多个国家的分布式网络,将推理任务运行在离用户最近的地方。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version