“如果将大模型比作火箭,算力就是它的引擎,但今天我们使用的引擎,启动钥匙却攥在别人手里。”在近期新加坡举办的一场闭门论坛上,清华大学教授魏少军抛出这句比喻,瞬间让会场陷入短暂的寂静。他直言不讳地指出,中国AI产业若继续依赖国外GPU,未来可能面临“算力心脏骤停”的风险。
这一论断并非危言耸听。美国近期出台的新一轮出口管制政策,将算力硬件的“天花板”进一步压低。英伟达A100、H100、B100等高端GPU相继被列入限制清单,国内大模型团队被迫延长训练周期30%,或以双倍价格购买“灰色渠道”产品。更棘手的是,部分云厂商采购的H20芯片被曝存在安全漏洞,某头部企业不得不紧急下架原计划上线的千亿参数模型,重新拆解硬件架构、清洗数据,直接损失数千万元,而时间成本的损耗才是真正的“隐形成本”。
魏少军剖析了问题的根源:GPU并非技术原罪,行业对它的过度依赖才是症结。英伟达的崛起依赖两大关键节点——2006年CUDA架构的推出,将图形芯片转化为通用计算平台;2010年后AI技术爆发,恰好需要大规模矩阵运算,GPU因此成为“黄金搭档”。但鲜为人知的是,这一架构最初是为游戏渲染设计,并非为Transformer架构量身定制。如今美国收紧技术出口,中国AI产业才惊觉自己“寄人篱下”,连硬件架构的修改权都未掌握。
破局之道在于“换引擎”。魏少军提出,与其重复制造“替代版GPU”,不如直接为大模型设计专用ASIC芯片,从晶体管层级嵌入注意力机制的计算特性,实现效率的质的飞跃。这一观点并非空想,博通近期公布的财报提供了实证:其与北美云巨头合作的定制AI芯片,推理性能与H100持平,功耗却降低18%,一举斩获百亿美元订单。华尔街的股价反应表明,GPU的垄断地位已出现裂痕。
国内已有团队先行试水。今年初,DeepSeek发布的1.3万亿参数MoE模型,训练全程采用“寒武纪+华为昇腾”混合芯片,未使用任何受限的英伟达产品。据知情人士透露,团队通过重构指令集层级的算子,延长数据在片内SRAM的停留时间,将带宽压力降低5个时钟周期,最终使训练成本下降42%。这一案例印证了魏少军的判断:当算法与芯片深度耦合,即使使用落后两代的制程工艺,也能实现“技术逆袭”。
但“换道超车”绝非易事。国产EDA工具目前仅能稳定支持7nm工艺,更先进制程需依赖进口IP;单次流片成本高达5000万美元,失败即意味着巨额损失。在软件层面,TensorFlow和PyTorch虽提供插件接口,但将算子映射至国产ASIC需重写底层驱动,代码量以十万行计。产能问题同样严峻:台积电先进制程排期已至2026年,国内晶圆厂虽愿接单,但良率提升仍需突破“魔鬼曲线”。任何环节的失误,都可能导致整个项目停滞。
面对质疑,魏少军回应直截了当:“继续追随GPU,永远只能看到别人的尾灯。”他建议从推理侧芯片切入:这类芯片任务单一、精度要求可控、生态依赖度低,可优先攻克推荐、搜索、安防等高并发场景,通过市场收益反哺训练芯片研发。华为、阿里、百度近期公布的ASIC路线图均遵循这一逻辑:先让推理芯片实现“自我造血”,再逐步向训练级芯片进军。
政策层面也在释放利好。一份内部征求意见稿显示,央企云采购将设立“国产加速卡配额”,2025年起占比不低于30%,且逐年递增。考虑到国内公有云增量的一半由央企贡献,这一政策相当于为国产芯片厂商锁定百万级订单。稳定的订单需求将促使晶圆厂扩大产能、EDA厂商投入7nm以下工具链研发,开发者也更有动力放弃CUDA生态,转投国产框架。算力自主化的核心,实则是市场信心的重建,而信心需要订单的持续滋养。
深夜的实验室里,工程师仍在调试7nm芯片版图,仿真程序一遍遍运行;产品经理将新出炉的推理卡插入服务器,风扇的轰鸣声如同起跑的号角。他们清楚,自己书写的不仅是代码,更是中国AI能否将“算力心脏”移植回本土的说明书。英伟达的GPU仍是优秀工具,但已不再是唯一选择。当新一批流片数据送达魏少军的邮箱,中国AI的“新引擎”离首次点火又近了一步。