谷歌正在发起一项代号为「TorchTPU」的新行动,试图以此打破英伟达在 AI 算力市场的长期垄断。
据知情人士透露,这项计划的核心在于让谷歌自研的 AI 芯片(TPU)能够更顺滑地运行 PyTorch,这是目前全球最主流的 AI 软件框架。
这是谷歌激进战略拼图中的关键一块,他们希望将 TPU 打造为英伟达 GPU 的有力替代者。
随着谷歌急需向投资者证明其巨额 AI 投入的回报能力,TPU 的销售已然成为谷歌云营收增长的重要引擎。
但光有硬件是不够的。
知情人士指出,「TorchTPU」旨在消除那道长期阻碍 TPU 普及的无形围墙,也就是让那些早已习惯在 PyTorch 环境下搭建技术架构的客户,能够无痛迁移到谷歌的硬件上。
甚至有消息称,为了加速这一进程,谷歌正考虑将部分软件开源。
相较于过往对 PyTorch 的零星支持,这一次谷歌投入了前所未有的组织关注度和战略资源。
这一转变的背后,是越来越多渴望采用 TPU 的企业发出的呼声。对他们来说,芯片是个好东西,但软件栈却成了瓶颈。
在硅谷,PyTorch 是 AI 模型开发者的通用语言,而它的最大支持者正是 meta。
在这个行业里,极少有开发者会去为英伟达、AMD 或谷歌的芯片逐行编写底层代码,他们依赖的是像 PyTorch 这样的工具库来自动化处理开发任务。
自 2016 年发布以来,PyTorch 的成长史几乎就是一部与英伟达CUDA生态的绑定史。
华尔街分析师普遍认为,CUDA 才是英伟达抵御竞争对手最坚固的盾牌。
多年来,英伟达的工程师们不仅造芯片,更致力于确保 PyTorch 开发的模型在其硬件上跑得又快又好。
相比之下,谷歌此前走了一条截然不同的路。
他们拥有庞大的内部软件军团,使用一套名为Jax的代码框架,并通过 XLA 工具来优化 TPU 的运行效率。
谷歌自身的 AI 软件栈和性能优化大多围绕 Jax 构建,这种「圈地自萌」的做法,拉大了谷歌芯片与外部客户实际使用习惯之间的鸿沟。
面对路透社的询问,谷歌云发言人虽未对该项目细节置评,但确认了这一战略方向。
他表示,无论是 TPU 还是 GPU 基础设施,需求都在加速爆发,谷歌的重心是提供足够的灵活性和规模,无论开发者选择在何种硬件上构建应用。
从自用到外售TPU 的角色演变
曾几何时,谷歌将绝大多数 TPU 产能视为「私藏珍品」,仅供内部使用。
这一局面直到 2022 年才发生改变,谷歌云部门成功争取到了 TPU 的销售主导权。
此后,谷歌云大幅增加了对外分配的 TPU 额度,试图在客户对 AI 兴趣激增的当下,通过扩大产能和销售来抢占市场。
然而,供需之间存在错位。
全球大多数 AI 开发者使用的是 PyTorch,而谷歌芯片最擅长的却是 Jax。
这意味着,想要使用谷歌芯片并获得比肩英伟达的性能,开发者必须进行大量额外的工程适配。
在分秒必争的 AI 竞赛中,这种时间和资金的消耗是企业难以承受的。
如果「TorchTPU」计划成功,它将显著降低企业寻找英伟达 GPU 替代方案时的转换成本。
英伟达之所以难以撼动,不仅在于硬件性能,更在于 CUDA 生态已经深深嵌入 PyTorch,成为训练和运行大模型的默认选项。
知情人士表示,企业客户曾反复向谷歌反馈,TPU 虽好,但接入门槛太高,因为历史上它强迫开发者放弃通用的 PyTorch,转而学习谷歌内部偏好的 Jax。
盟友 meta敌人的敌人就是朋友
为了加速开发进程,谷歌找来了一位关键盟友,即 PyTorch 的创造者和守护者 meta。
据知情人士透露,这两大科技巨头正在商讨协议,让 meta 获得更多 TPU 的使用权。此前《The Information》也曾报道过这一动向。
在早期合作中,谷歌主要以托管服务的形式向 meta 提供支持。
meta 使用谷歌设计的芯片运行谷歌的软件和模型,并由谷歌提供运营维护。
对 meta 而言,推动软件适配 TPU 具有极高的战略价值,它不仅能降低推理成本,更能通过硬件基础设施的多元化来减少对英伟达的依赖,从而在谈判桌上获得更多筹码。
meta 方面对此拒绝置评。
今年以来,谷歌已开始将 TPU 直接出售给客户的数据中心,而不再局限于自家的云服务。
组织架构也在随之调整,谷歌老将 Amin Vahdat 本月被任命为 AI 基础设施负责人,直接向 CEO 桑达尔·皮查伊(Sundar Pichai)汇报。
这套基础设施对谷歌至关重要,它不仅要支撑包括 Gemini 聊天机器人和 AI 搜索在内的自家产品,也要服务于像 Anthropic 这样依赖谷歌云 TPU 算力的外部独角兽。











