上个月科技圈的焦点,非谷歌莫属。凭借性能卓越的Gemini 3,谷歌在短短半个月内股价大幅上扬,不仅在AI领域与OpenAI展开激烈竞争,还在芯片市场对英伟达发起挑战,引发了广泛关注。
谷歌此次的亮眼表现,让英伟达也受到波及。原来,谷歌宣称Gemini 3 Pro是在自研的TPU(张量处理单元)上训练的,在宣传中几乎未提及英伟达。这一消息传出后,媒体和大众纷纷猜测,谷歌或许要打破英伟达CUDA的垄断局面了。
那么,这个让英伟达面临挑战的TPU究竟是什么?从名称就能看出,它是一类芯片,与GPU是近亲,不过是为AI量身定制的“特供版”。实际上,TPU项目从2015年就已启动,并非近期才出现的新事物。
当时谷歌正经历技术转型,打算将传统的搜索推荐算法替换为深度学习算法。然而,他们发现GPU存在诸多问题,不仅供应不足,还非常耗电,使用成本极高。GPU的问题在于其设计过于追求全能,架构复杂,包含硬盘、内存、显存、核心等多个层次。在芯片领域,数据搬运的成本远高于计算本身,数据从显存到核心的短距离传输,对电子来说却如同翻山越岭。大量电费并非用于计算,而是消耗在数据传输上,最终转化为热量,需要风扇散热。在图形渲染中,这种架构尚可接受,因为画面随机性强,素材难以预料,只能从显存中临时获取。但在AI的矩阵运算中,每个数的计算方式、对象和次数都是固定的。GPU却仍要将计算完的数据存回显存,等待再次取入计算单元,这无疑是一种浪费。
于是,专为AI设计的TPU应运而生。它对GPU中用不上的图形、控制流、调度等模块进行了精简和优化。其核心思路是专门优化AI常用的矩阵乘法,采用了“脉动阵列”方法。使用这种方法后,数据一旦开始计算,就会在密集排列的计算单元之间传递,未用完前不许返回存储单元,从而减少了频繁的读写操作。如此一来,TPU每个周期的计算操作次数达到数十万量级,是GPU的近十倍。初代TPU v1的能效比达到同时期NVIDIA Tesla K80的30倍,性价比优势明显。
不过,最初谷歌对TPU的应用较为谨慎,仅将其用于推理,不具备训练功能,功能相对单一,与GPU相比竞争力不足。从第二代开始,谷歌加大内存投入,提升容量和数据传输速度,使TPU能够一边计算,一边快速记录和修改海量的中间数据,如梯度和权重,从而具备了训练能力。
尽管多年来TPU在训练和推理方面的成本更低,性能也与GPU相当,但科技巨头们为何仍热衷于抢购英伟达的芯片呢?其实,并非大家不看好TPU,而是谷歌一直采取只租不卖的策略,将TPU绑定在谷歌云服务中。大公司无法将TPU购置回家,这意味着将核心业务完全依赖谷歌云,存在较大风险,担心英伟达的“卡脖子”问题在谷歌这里演变成更严重的“断供”危机。即便如此,苹果仍因TPU的成本优势,租用了一部分。
此次TPU备受关注,一方面是因为Gemini 3的成功证明了TPU的可靠性;另一方面,谷歌终于开始出售第七代TPU Ironwood。据The Information报道,meta已与谷歌洽谈数十亿美元的大合同,计划从2027年开始在机房部署TPU,并最早于明年开始租用。这一消息传出后,谷歌股价上涨2.1%,英伟达股价下跌1.8%。甚至有谷歌内部人士表示,此次TPU的大规模推广可能会抢走英伟达几十亿美元的市场份额,削减其10%的年收入。华尔街也对TPU前景十分看好,认为其具有巨大的商业潜力,连负责设计制造的博通也因此上调了业绩预期。
然而,要说TPU会完全取代GPU,还为时尚早。TPU属于ASIC(专用集成电路),除了擅长AI的矩阵计算外,在其他方面的能力较弱。这既是其优势,也是其短板。在当前大模型盛行的背景下,对矩阵计算的需求极大,TPU得以迅速发展。但如果未来出现更热门的AI技术路线,不再依赖当前的矩阵计算方式,TPU可能就会面临困境。而且,TPU过于专精,一旦在计算性能上失去优势,就可能彻底被淘汰,例如四年前的TPU v4如今已鲜少见到。
相比之下,GPU的适应性更强。以五年前在大模型浪潮前推出的3090为例,它凭借24G的超大显存和CUDA的向下兼容生态,至今仍是普通人玩AI的主力卡,运行Llama 8B小模型不在话下。即便AI领域的发展不如预期,GPU还能回归游戏和设计领域,继续发挥作用。
英伟达的CUDA生态是其最大的竞争优势。就像用户习惯了iOS系统,虽然安卓系统也很优秀,但要将十年的照片、习惯的操作手势和购买的众多应用迁移过去,大多数人会选择暂时观望。如今的AI开发者也是如此,他们的代码基于CUDA编写,调用的库是英伟达优化的,甚至报错解决方法也围绕CUDA。若要转投TPU,需要重构代码,适应新的开发环境。即使TPU兼容PyTorch,但许多底层优化和自定义算子仍需重新调试,而专门指定的JAX语言也增加了人才招聘的难度。对于急于将模型投入运行的中小厂商来说,直接购买英伟达芯片更为便捷,甚至可能根本无法获取TPU。
值得一提的是,谷歌自身也在大量采购英伟达的GPU,以满足谷歌云众多客户的需求。因此,TPU此次开售,虽在大模型训练领域给英伟达带来了竞争压力,以经济划算的优势分得一杯羹,但远未达到取代GPU的程度。未来的算力市场,更可能是TPU满足头部大厂的专用需求,而GPU继续主导通用市场。不过,巨头之间的竞争有望降低算力价格,这对整个行业来说无疑是一件好事。











