在近日举办的一场行业主题演讲中,英伟达宣布推出全新AI加速芯片——Groq 3 LPU(逻辑处理单元),并同步发布Vera Rubin计算平台。该平台整合了七款核心硬件,除Groq 3 LPU外,还包括Vera CPU、Rubin GPU、NVLink 6交换机、ConnectX-9超级网卡、BlueField-4 DPU及Spectrum-6以太网交换机,形成覆盖计算、网络、存储的全栈AI基础设施。
作为Vera Rubin平台的推理加速核心,Groq 3 LPX机架成为关注焦点。该机架集成256颗LPU芯片,每颗芯片配备500MB SRAM,总内存容量达128GB,推理加速带宽高达40 PB/s。通过640 TB/s的专用扩展接口,所有芯片可实现超低延迟互联。英伟达CEO黄仁勋透露,LPX与Rubin GPU协同工作时,推理吞吐量与功耗比将提升35倍,显著优化AI智能体等实时应用的响应速度。
制造环节方面,三星电子已确认承接LPU芯片的代工生产。据供应链消息,Groq 3 LPX机架将于今年下半年启动出货,首批产品主要面向超大规模数据中心客户。市场研究机构分析师郭明錤指出,在英伟达战略投资Groq后,LPU出货量预测大幅上调,预计2026-2027年总出货量将达400万至500万颗,对应机柜出货量分别为300-500个和1.5万-2万个。
需求增长动力来自双重驱动:一方面,LPU与英伟达CUDA生态深度整合,开发者可无缝迁移现有模型;另一方面,AI应用场景正从云端向边缘端延伸,智能体交互、实时决策、物理世界模拟等场景对推理延迟提出严苛要求。财通证券分析显示,大模型推理延迟的70%源于内存带宽瓶颈,而LPU架构通过优化内存访问路径,可将Decode阶段延迟降低60%以上,同时单位推理成本下降40%。
技术演进层面,黄仁勋在演讲中特别强调AI发展范式转变。他表示,随着多模态大模型成熟,AI系统正从被动响应转向主动感知,物理智能与智能体协作成为下一代技术突破口。这种转变对底层硬件提出全新要求,既需要处理海量传感器数据的实时性,又需保障多智能体协同的确定性延迟。
资本市场已对LPU产业链展开布局。据券商研报,由于LPX机架采用高速信号传输技术,PCB层数较传统服务器增加30%,单柜价值量提升2.5倍。目前,沪电股份、胜宏科技等英伟达PCB供应商,以及参股LPU研发企业的智微智能、星宸科技等,均被列入重点跟踪标的。深南电路则因在高速材料领域的突破,被认为有望进入机柜级供应链。











