过去数年间,英伟达凭借AI算力需求的爆发式增长,一度稳坐行业头把交椅。然而近期,行业风向悄然转变,资本市场对英伟达的态度从“不可替代”转向“存在替代可能”,其市值在一个月内蒸发超7000亿美元,折射出技术竞争格局的深层变化。这场变局的触发点并非传统意义上的芯片巨头对决,而是谷歌以TPU(张量处理器)为核心的专用芯片路线,正从幕后走向台前。
11月27日,英伟达创始人黄仁勋在台北公开表示“我真的超级累”,这一罕见情绪流露,被外界解读为应对新竞争压力的信号。与此同时,行业头部玩家meta被曝正与谷歌洽谈一项规模达数十亿美元的芯片采购协议——从2027年起,meta计划将谷歌TPU引入其数据中心。这一动作的象征意义远超商业价值:作为全球AI基础设施投入最大的公司之一,meta的选择被视为对谷歌技术路线的重要背书。
面对挑战,英伟达迅速亮出防御牌。公司强调其GPU平台仍“领先业界一代”,是“唯一能运行所有人工智能模型并实现跨场景计算的解决方案”。其核心论点在于CUDA生态构建的开发者护城河,以及GPU在通用性和灵活性上的不可替代性。但行业讨论的焦点已悄然转移:当AI训练与推理规模持续扩张,能耗正成为新的约束条件,而谷歌TPU在能效比上的优势开始显现。
半导体专家张国斌指出,TPU作为为深度学习定制的ASIC芯片,通过牺牲通用性换取极致性能。例如,谷歌最新一代Ironwood TPU的能效比是初代产品的30倍,在同等工艺下远超GPU。这种技术优势已转化为实际成果:OpenAI开始使用TPU进行部分训练,Anthropic宣布将TPU v5e作为下一代大规模训练平台,理由正是“性能与成本的平衡”。更关键的是,谷歌通过“硬件即服务”(HaaS)模式,将TPU部署在合作伙伴数据中心并按使用量分成,大幅降低了中小云厂商的硬件投入门槛。
谷歌的野心不止于此。其正在构建“TPU+OCS(光路交换系统)+Gemini大模型+云服务”的全栈体系,实现从芯片到应用的深度整合。这种系统级优化使得数据中心网络拓扑完全服务于TPU超节点,例如最新发布的第七代TPU Ironwood,通过ICI scale-up网络可支持9216颗芯片的超大规模集群,峰值性能达4614TFLOPS,是上一代的10倍。华泰证券分析认为,谷歌正以“游击战”策略渗透市场,其全栈生态可能对英伟达的通用算力体系构成长期威胁。
技术竞争的维度正在从“单卡性能”转向“系统效率”。尽管英伟达在单卡算力上仍占优势,但超节点集群的互联能力成为新的战场。华为、阿里、百度等中国厂商在这一领域动作频频:华为推出的Atlas 960 SuperPoD支持15488张昇腾卡互联,阿里云磐久128超节点服务器单柜容纳128颗AI芯片,百度昆仑芯则通过百舸5.0实现超节点量产部署。国产GPU厂商也在加速追赶,壁仞、燧原、沐曦、摩尔线程等企业通过光互连技术、分布式并行架构等创新,推动超节点规模向千卡级迈进。
华龙证券观察指出,中美AI竞争已进入“体系化”阶段。中国厂商通过集群建设、开源生态和工程化交付,正在AI基建领域形成差异化优势。例如,曦智科技联合壁仞、中兴推出的光互连GPU超节点LightSphereX,实现了跨芯片的高速数据传输;燧原云燧ESL系统单节点支持64卡全带宽互联,沐曦曦云C600则通过metaXlink技术扩展超节点规模。这些突破表明,当算力竞争从“芯片之争”升级为“生态之争”,系统效率、能效比和规模化交付能力正在重新定义行业规则。
对于英伟达而言,挑战与机遇并存。其CUDA生态仍拥有全球最庞大的开发者社区,GPU的通用算力在多元场景中难以被完全替代。但谷歌TPU的崛起,以及云服务厂商自研ASIC的扩散,正在打破原有的技术垄断格局。当meta愿意将数十亿美元投向竞争对手,当中国厂商在超节点领域实现局部领先,行业格局的微妙变化已不容忽视。这场关于“够用、便宜、可规模化”的竞争,或许才刚刚拉开序幕。










