特斯拉近期的一则消息震惊了科技界:其自研的数据中心级训练系统Dojo团队宣布解散,项目负责人也已离职。这一变动引发了外界的广泛关注和热议。
近年来,众多大型企业和初创公司纷纷投入训练芯片的研发,但结果却并不尽如人意。Graphcore曾以“IPU对抗GPU”的口号声名鹊起,最终却难逃被软银收购的命运;英特尔的Habana项目也因路线多、生态分裂而逐步并入GPU体系;Cerebras虽然坚持晶圆级差异化,产品与订单持续增长,但其商业化和生态与英伟达的CUDA相比仍有较大差距。这些案例无一不表明,自研训练芯片的道路对大多数公司而言充满了挑战。
特斯拉的Dojo项目自2019年马斯克首次提出以来,便备受瞩目。Dojo旨在打造一款为“现实世界场景”模型训练而设计的自研数据中心级训练系统。经过几年的发展,Dojo已经从自研D1芯片逐步扩展到系统化路径,目标是实现超1 ExaFLOP级的ML计算能力。然而,尽管市场对Dojo的预期一度被推高,项目最终还是以失败告终。
Dojo项目的失败并非没有预兆。在项目推进期间,多位核心技术负责人相继离职,这无疑给项目的进展带来了巨大影响。特斯拉在奥斯汀上线的“Cortex”训练集群,以及后续披露的新增H200 GPU,都表明特斯拉正在转向采购成熟的GPU平台,而非坚持自研道路。
特斯拉的这一转变无疑是明智的。在训练端,特斯拉选择外采为主,将主力训练转向可即刻部署、可线性扩容、生态成熟的英伟达(并补充部分AMD),从而大大缩短了模型训练的周期。而在推理端,特斯拉则坚持自研为主,与三星签订长期代工协议,将车载、机器人、边缘推理算力自控在手,以确保产品的快速迭代和风险控制。
特斯拉的这一套组合拳不仅务实,而且高效。它避免了在自研训练芯片这一尚未收敛的路线上继续“烧时间”,同时也将Time-to-Train和Time-to-Market拉回到了商业节奏内。马斯克在社交平台上对此回应称,没有必要同时扩展两条截然不同的训练芯片路线,特斯拉将全力集中在推理芯片的研发上。
那么,为什么自研训练芯片如此困难呢?首先,生态与软件壁垒是一个巨大的挑战。训练芯片不仅仅是单芯片的竞赛,框架适配、编译器、内核库、并行策略、调优工具链等都是需要长时间打磨的。英伟达在CUDA/cuDNN/各类并行库上积累了十几年的经验,后来者很难追平这一差距。其次,系统工程与供应链也是自研训练芯片的一大难题。先进封装、HBM供给、机柜/供配电/散热、互联拓扑、集群调度、可靠性工程等任何一环的薄弱都可能导致整体成本的上升。再者,自研训练芯片需要稳定、可预期且超大规模的自用训练需求来摊薄巨额前期投入,这对于大多数公司而言都是难以实现的。最后,机会成本也是自研训练芯片不得不考虑的因素。在AI时代下,英伟达和AMD等AI芯片玩家已经以季度为单位进行代际升级,自研芯片的代次跨度很容易一上板就过时。
英伟达之所以能在这场自研训练芯片的竞赛中脱颖而出,得益于其系统性的胜利。英伟达不仅拥有领先的GPU技术,还从硅到机架到网络到软件都具备全栈交付能力。其硬件层、网络层、软件层和交付层都紧密相连,构成了一个完整的“AI工厂”。这使得英伟达能够提供“可用算力/周”,大大缩短了客户的Time-to-Train。
一个典型的案例就是位于田纳西州孟菲斯的xAI Colossus超级计算机集群。该集群利用NVIDIA Spectrum-X以太网网络平台连接了100,000个NVIDIA Hopper GPU,仅用了122天就建成了配套设施和最先进的超级计算机。从第一个机架滚到地面到训练开始,整个过程仅用了19天。这一案例充分展示了英伟达在“系统+软件+生态+交付能力”上的复合护城河。
特斯拉关掉Dojo,并非因为输在了一块更强的芯片上,而是输在了一个更强的“产业系统”上。自研训练芯片这条路对大多数公司而言并不具备可复制性。而在“买卡+更快上线+产品侧自控推理”的组合里,英伟达再次赢下了时间、生态与现金流的三重赛点。这一胜利不仅是对特斯拉的提醒,更是对整个行业的一次警示:在AI基建时代,速度与生态才是一切。