据知情人士透露,Alphabet旗下谷歌正在推进一项名为“TorchTPU”的内部计划,旨在提升其张量处理单元(TPU)与主流人工智能框架PyTorch的兼容性,从而削弱英伟达在AI计算市场的长期优势。这一战略被视为谷歌云业务收入增长的关键布局,其核心目标是将TPU打造成英伟达图形处理器(GPU)的可靠替代品。
谷歌的TPU芯片此前主要服务于内部业务,但自2022年云计算部门接管销售团队后,外部客户配额显著增加。随着AI市场需求的激增,谷歌正通过扩大产能向更多企业销售TPU。然而,开发者群体普遍使用的PyTorch框架与谷歌内部偏好的Jax框架存在兼容性障碍,这导致客户若想采用TPU,需投入额外工程资源进行适配,增加了迁移成本。
PyTorch作为meta深度支持的开源项目,已成为AI开发者最常用的工具之一。其与英伟达CUDA架构的紧密整合,使得基于该框架开发的软件能在英伟达芯片上实现高效运行。相比之下,谷歌长期围绕Jax框架构建自身AI软件栈,导致TPU的实际使用方式与客户期望存在差距。华尔街分析师指出,CUDA生态正是英伟达抵御竞争对手的核心壁垒。
为突破这一瓶颈,谷歌在“TorchTPU”计划中投入了更多战略资源。知情人士称,该计划通过实现TPU与PyTorch的完全兼容,并优化开发者体验,吸引已基于PyTorch构建技术架构的企业。部分消息显示,谷歌甚至考虑开源部分软件组件以加速客户采用进程。这一转变标志着谷歌从优先内部框架转向迎合行业主流需求。
谷歌云发言人虽未透露项目细节,但确认此举将为客户提供更多硬件选择。“我们观察到TPU和GPU基础设施需求大幅增长,核心目标是无论开发者选择何种硬件,都能提供所需的灵活性与规模支持。”该发言人表示。这一表态与谷歌近期调整TPU销售策略的举措相呼应——今年以来,谷歌已开始直接向客户数据中心销售TPU,突破此前仅限云平台使用的限制。
在技术合作层面,谷歌正与PyTorch的维护方meta展开紧密协作。此前有报道称,两家公司正洽谈让meta获得更多TPU使用权。谷歌最初以托管服务模式向meta提供芯片支持,而meta推动TPU兼容软件开发的战略意图明显:降低模型推理成本并减少对英伟达GPU的依赖。尽管meta拒绝置评,但行业观察人士认为,这种合作将重塑AI基础设施的竞争格局。
谷歌近期的人事调整进一步凸显其AI基础设施战略的优先级。本月,资深高管阿明·瓦赫达特被任命为人工智能基础设施负责人,直接向首席执行官桑达尔·皮查伊汇报。该部门需同时支撑谷歌自研产品(如Gemini聊天机器人和AI搜索引擎)的运行,并为云客户(如AI公司Anthropic)提供TPU服务。这种双重使命要求谷歌在硬件性能与软件生态之间实现更精细的平衡。
当前,全球多数AI开发者仍依赖PyTorch-CUDA技术栈,这使得英伟达GPU成为训练大型模型的默认选择。若“TorchTPU”计划成功,谷歌将显著降低企业迁移至TPU平台的成本,从而在硬件性能与软件生态的双重维度向英伟达发起挑战。这场竞争不仅关乎芯片算力,更取决于谁能构建更开放的开发者生态。











