英伟达近期以200亿美元的巨额投入,将目光锁定在一家名为Groq的新兴芯片企业,此举被视为其在人工智能领域应对新竞争格局的关键布局。随着谷歌TPU等新型芯片架构的崛起,英伟达在AI芯片市场的统治地位正面临前所未有的挑战,尤其是在推理场景的低延迟需求方面,传统GPU架构的局限性逐渐显现。
科技投资人Gavin Baker的分析指出,AI推理过程分为prefill和decode两个阶段,对芯片性能的要求存在本质差异。在prefill阶段,模型需要同时处理大量输入token,这一过程与GPU擅长的并行计算高度契合,因此GPU在此环节表现优异。然而,在decode阶段,模型必须逐个生成输出token,用户会实时观察到响应过程,此时延迟成为影响体验的核心因素。GPU依赖片外HBM显存的设计导致数据读取速度受限,大量算力因等待内存传输而闲置,实际计算效率大幅下降。
Groq推出的LPU架构通过将SRAM直接集成在芯片硅片上,彻底改变了这一局面。这种片上存储模式消除了数据读取延迟,使LPU在单用户场景下能达到每秒300-500个token的生成速度,且始终保持满负荷运转。测试数据显示,LPU在推理速度上全面超越GPU、TPU及市面上主流ASIC芯片,成为当前速度最快的推理解决方案。但这种性能优势也伴随着代价——LPU的片上SRAM容量仅230MB,远低于GPU的HBM显存,导致单个芯片无法独立运行大型模型。
<以Llama-3 70B模型为例,使用英伟达GPU仅需2-4张卡即可部署,而LPU方案需要数百颗芯片协同工作,不仅硬件成本激增,数据中心占地面积也呈指数级增长。这种差异使得AI公司在采用LPU时必须权衡:用户是否愿意为极致速度支付更高成本?市场反馈显示,随着AI应用从训练层向应用层迁移,推理速度已成为刚需,Groq的业绩增长印证了这一趋势的持续性。
对于英伟达而言,收购Groq相关技术团队不仅是补齐推理短板的关键举措,更是防御新兴竞争者的重要战略。TPU的成功已证明GPU并非AI芯片的唯一解,谷歌通过自研芯片降低训练推理成本的经验,给英伟达敲响了警钟。若错失推理市场,英伟达可能重蹈当年被游戏业务颠覆的覆辙。此次技术整合旨在帮助英伟达突破“创新者窘境”,在保持预训练领域优势的同时,向应用层推理市场发起冲击。
推理芯片市场的竞争逻辑与GPU截然不同。Groq CEO指出,该领域属于高销量、低利润的苦差,与GPU高达70-80%的毛利率形成鲜明对比。英伟达此次扩张意味着其业务版图将从高利润的训练市场延伸至薄利的推理领域,这既是应对竞争的无奈之举,也是开拓新增长点的必然选择。随着AI技术周期进入应用主导阶段,芯片厂商的竞争焦点正从算力规模转向实时响应能力,这场变革或将重塑整个AI硬件生态。








