即将在加州圣何塞举办的NVIDIA全球技术大会(GTC)引发行业高度关注,其核心焦点在于英伟达或将推出融合创新架构的AI推理芯片。据产业链消息,这款被黄仁勋称为"颠覆性"的产品可能整合Groq团队研发的语言处理单元(LPU)技术,标志着英伟达首次在核心产品线中大规模引入外部计算架构。
当前AI算力市场正经历结构性转变。德勤最新行业报告显示,到2026年推理环节将占据全球AI计算资源的三分之二,催生出价值数十亿美元的专用芯片市场。这种转变源于以OpenClaw为代表的新一代智能体应用爆发,推动市场重心从模型训练转向实时推理服务。传统GPU架构在处理推理任务时面临显著瓶颈——模型参数存储于高带宽内存(HBM)中,计算核心与存储单元间的频繁数据搬运导致解码阶段延迟居高不下。
Groq LPU架构通过将参数存储在片上静态随机存取存储器(SRAM)破解这一难题。其230MB SRAM配置可提供80TB/s的内存带宽,数据处理效率较GPU架构提升数个量级。但专家指出,纯SRAM方案难以支撑千亿参数级别的大模型运行,当前最大容量SRAM芯片仅能存储约20亿参数,与主流大模型需求存在数量级差距。
行业分析师庄昌磊透露,英伟达可能采用三维堆叠技术突破物理限制。这种方案借鉴AMD 3D V-Cache技术,通过台积电系统级集成芯片(SoIC)工艺,将包含大量SRAM的LPU单元直接堆叠在GPU晶圆上方。这种设计既保留GPU的完整软件生态,又能吸收LPU的低延迟优势,使解码阶段速度提升3-5倍。
三维存储架构正在重塑半导体产业链价值分布。东方证券研究指出,SRAM 3D堆叠通过垂直扩展存储密度,可规避传统平面架构的容量限制,特别适用于对延迟敏感的推理场景。中信证券测算显示,采用该技术的芯片在访存带宽指标上可提升40%,同时降低25%的能效比。
技术变革带来新的产业机遇与挑战。晶圆级堆叠要求计算单元采用最先进制程(如台积电A16工艺),这将加剧行业对3nm以下尖端制程的依赖。庄昌磊分析认为,高端芯片价值正向前端制造环节集中,可能挤压传统封测厂商利润空间。但这也为本土企业开辟差异化赛道——在成熟制程芯片的3D集成、散热管理、可靠性测试等后道环节建立技术壁垒。
供应链动态显示,富士通计划在2027年出货的MONAKA处理器已采用类似技术,验证了三维SRAM架构的商业可行性。随着英伟达、AMD等巨头加速布局,存储与计算单元的垂直整合或成为下一代AI芯片的标配设计,推动半导体产业进入立体集成新时代。











