华为那篇韬定律论文,更新了。
论文在原有的理论框架上,加了不少工程细节、实测数据和产品规划。
摘要里一句笼统的「性能提升41%」,换成了一张跟友商基线正面对照的实验数据表,电压、频率、功耗、面积摆在一起,谁高谁低一目了然。
原来一句话带过的技术选型,也被拆开讲清楚,为什么放弃了精度更高的那条路线,选了现在这条更成熟的路子。
还有散热这道工程难题,也第一次被摊开来讲。
从摩尔定律到τ scaling我们先回顾一下华为的韬定律说了些什么。
一言蔽之,韬定律是摩尔定律的“时间版”。
摩尔定律信的是晶体管越做越小,密度大约每两年翻一倍。
但随着制程不断升级,光靠缩小尺寸换性能这条路几乎已经走平了。
韬定律则是换了一把尺子,不再比谁的晶体管小,改成比谁的时间常数τ更短。
时间常数是个工程概念,说的是一个系统对一次输入变化做出响应、达到稳定状态需要花的那段特征时间,电路里常指电压或电流从触发到基本稳定所用的时长。
论文给出的正式分解是,τ由晶体管层、电路层、芯片层、系统层四个部分叠加而成,跨度约十二个数量级,从皮秒级一路铺到秒级。
晶体管开关快一点,是τ在变短;电路里信号少绕一段路,缩短的也是这个τ;芯片答复一次请求快一拍,起作用的还是它。
谁能把τ压得更短,谁就赢。
论文给了两个已经量产验证的案例。
第一个案例在手机芯片上,一整台手机的性能全压在一颗SoC芯片上,没有多机并行能救场。
论文提出的方法叫LogicFolding。
其官方定义是把数字、模拟、存储电路划分到垂直堆叠的有源层上,用超精细键合连起来。
落到工程上,就是原来摊在一层的电路,现在能立体地叠起来。
走线短了,寄生电阻电容跟着降,同样的制程节点,芯片能跑得更快、更省电。
华为拿一颗新一代手机芯片和上一代同工艺的芯片直接对比,晶体管密度一代之内从155提升到238百万颗每平方毫米。
这个跨度过去得靠三年的制程迭代才能换来。
第二个案例则是在AI数据中心。
AI系统跟手机正好相反,一颗芯片不用扛下所有,有成百上千颗芯片凑在一起干一件事。
这时候拖后腿的,从单芯片算力本身,变成了数据跑在芯片之间、机柜之间的时间。
论文测算,一个大型AI集群超过八成的能耗花在了数据搬运上,超过七成的成本花在了数据存储上。
为了压这段时间,论文一口气祭出三件套。
第一件叫Unified Bus,论文给它的定位是内存语义、点对点、硬件管理一致性的统一互联协议。
做法上,是把原来层层转换的通信栈简化成一条直连的高速通道,跨节点访问延迟从几十微秒压到了大约100纳秒。
第二件叫Hi-ONE,全称高密度光互联节点引擎,官方指标是每个模块8Tb/s带宽。
传统的电互联,一旦冲到多Tb/s级别,电信号能传输的距离既会骤减,配套线缆也粗到装不进机柜,散热和供电的余量同时被占满。
Hi-ONE把电信号换成光信号,所需的传输距离从大约100厘米压缩到5厘米,支持的连接距离则从不到一米拉长到了100米。
设计思路上,Hi-ONE没有用高精度但耗电的DSP方案,选的是更轻的模拟均衡驱动和跨阻放大器。
这种做法的代价是协议要容忍更松的误码率,但综合评估下来,所节省的功耗和成本,比多出来的误码率损失划算得多。
第三件叫3D Folding,解决的是论文里说的N平方对N困境。
把芯片的边长记作N,算力跟芯片面积成正比,也就是随着N呈平方增长。
内存带宽、互联和供电这些信号,都得从芯片边缘进出,边缘的周长只跟N成正比,也就是线性增长。
结果就是,芯片越做越大,算力涨得更快,边缘能承载的带宽和供电却很慢,两条曲线越拉越远。
3D Folding的解法,是把原来只能挤在芯片边缘的存储、供电、光模块,搬到芯片表面上。
边缘空间不够用,那就往表面找地方,算力涨得快、边缘带宽跟不上的老问题,这样就解决了。
韬定律,有了更多细节新发布的第二版论文,相比第一版有什么变化呢?
一个实质之外的修改是,前面看到的图片,都是新版本论文才增补上去的。
接下来看具体内容 。
摘要里有一句「性能提升41%」的说法,笼统地说功耗效率提升了41%,最大频率也提升了将近13%。
两件事混在一句话里说,听着像是白捡的好处,新版则把这两件事拆开,讲清楚了各自的测试条件。
频率提升13%,测的时候电压固定不变,这部分靠的是实打实的性能进步。功耗降低41%,用的是论文里说的同等性能对比法,把新一代芯片的电压往下调,调到跟上一代芯片打平性能的那个点,再看功耗能省多少。落到数字上,这时候功耗降到了老芯片的0.59倍,芯片面积降到了0.625倍。
两种实验条件被分开讲清楚,读者能自己判断这个数字到底衡量的是什么。
数字讲清楚之后,紧跟着要回答的是,这些数字从哪来。
所以,新版论文也把技术选型那部分补得更细了。
LogicFolding能不能把好处兑现,关键在一个论文里叫齿比的参数,指的是键合层间距和顶层金属布线间距的比值,单位在微米级别,越低越好。
键合层间距,说的是把两片硅片粘在一起的那些连接点之间挨得有多近;顶层金属布线间距,说的是芯片本身最上面那层走线之间的距离。
新版解释了这个比值为什么重要。
键合间距如果比顶层金属稀疏很多,设计空间只能是离散优化,芯片只能按功能模块整块分配,工程师手动划边界,是一块一块地切。
键合间距做得足够密之后,设计空间从离散变成了连续优化,可以按逻辑单元这种更细的粒度重新分配电路,从整块切变成按最小单位精细分配,理论上能做到全局最优。
把电路立体地叠起来,业内常见的做法分两条路。
第一条叫做顺序式3D集成,做法是在同一片晶圆上一层一层直接生长晶体管,精度理论上最高。
新版论文中提到,这条路最终被华为放弃了,原因是良率撑不住。
具体来说,上面每多长一层,下面那层就要再经历一轮高温工艺,反复的高温会让底层晶体管的掺杂分布跑偏、载流子迁移率下降,性能跟着掉。
华为选的是另一条更成熟的路——晶圆到晶圆混合键合。
其做法是把两片已经各自单独造好晶体管的晶圆,对准之后直接粘在一起,键合面上金属焊盘对金属焊盘、介质对介质同时键合,再打穿硅通孔把上下两层电路连通。
两片晶圆各自独立完成制造,不用像顺序式3D那样互相迁就对方的高温工序,良率因此能做上去。
选了这条路,代价也跟着来了——散热。这个问题同样是新版第一次正面提及。
走线短了是好处,热量跟着叠在一起则是代价,中间那层的散热路径比平铺时候长得多。
新版给出的应对办法,叫热感知分区和布局。
具体做法是,在划分哪块电路放哪一层之前,先算一遍每个模块的功耗热图,功耗高的模块尽量不叠在一起,垂直方向上也不让几个高功耗子系统紧挨着,把热源在三维空间里主动错开。
不过这个办法目前也只能缓解,不能根治,散热问题本身还没解决,新版只是把它摆到了台面上。











