谷歌TPU正以惊人的速度崛起,成为英伟达在AI硬件领域最强劲的竞争对手。随着谷歌Gemini 3大模型的成功,其背后的TPU架构再次成为全球科技界关注的焦点。资本市场对此反应热烈,谷歌股价的攀升让一个长期讨论的话题重新浮出水面:谷歌TPU是否真的具备与英伟达GPU一较高下的实力?
SemiAnalysis,这家在半导体和人工智能领域享有盛誉的研究机构,近期发布了一份重量级报告。由12位资深作者共同撰写的这篇文章明确指出,谷歌TPUv7已正式向英伟达发起挑战。报告深入分析了TPUv7如何通过卓越的系统级工程和成本优势,对英伟达的AI硬件霸权构成实质性威胁。
谷歌此次战略调整的关键在于打破长期以来的内部自用模式,开始向Anthropic等外部客户大规模出售TPU硬件及算力。据报道,Anthropic已部署超过1GW的TPU集群,这一规模令人瞩目。尽管在单芯片理论参数上,TPU未必全面超越英伟达GPU,但谷歌通过ICI互联和光路交换等系统级优化,实现了极高的实际模型算力利用率(MFU)。更引人注目的是,谷歌TPU的总体拥有成本(TCO)比英伟达GB200系统低约30%-40%,这一优势在商业竞争中极具杀伤力。
软件生态方面,谷歌也在积极补强。通过支持PyTorch原生环境和vLLM等开源框架,谷歌正努力瓦解英伟达CUDA的护城河。这一策略已初见成效,越来越多的AI开发者开始关注并尝试使用TPU平台。
谷歌的TPU商业化进程正在加速。除了Anthropic,meta、SSI、xAI、OAI等多家科技巨头也已成为TPU的客户。这一趋势不仅推动了谷歌和TPU供应链的重估,也对以英伟达GPU为核心的供应链构成了压力。英伟达显然感受到了这种压力,其官方推文在祝贺谷歌AI进展的同时,也强调了自己在硬件供应和平台通用性方面的领先地位。
TPUv7 Ironwood作为谷歌最新一代AI芯片,在设计理念上发生了显著转变。与前几代相比,TPUv7在FLOPs、内存和带宽等关键指标上几乎追平了英伟达的旗舰GPU,尽管全面上市时间稍晚。谷歌通过系统级优化和成本控制,成功弥补了理论性能上的微小差距,在实际应用中展现出强大的竞争力。
Anthropic选择TPU作为主要硬件平台,不仅因为其成本优势,更看重TPU在特定工作负载下的高效性能。通过自定义内核开发,Anthropic成功实现了比商用GPU更高的模型FLOPs利用率(MFU)和更优的每PFLOP成本性能。这种深度优化能力,使得TPU在特定场景下成为更理想的选择。
谷歌也在积极改善TPU的软件生态。通过加大对PyTorch和vLLM等开源框架的支持力度,谷歌正努力吸引更多外部开发者加入TPU生态系统。尽管在编译器和运行时等底层软件方面仍存在不足,但谷歌的改进方向明确,未来有望进一步缩小与英伟达CUDA生态的差距。







