在人工智能大模型的风潮中,高性能计算(HPC)领域的研究者逐渐从幕后走到了台前。2023年以来,随着大模型的兴起,不仅芯片行业迎来了新的机遇,芯片与模型之间的中间层——系统软件优化也成为了研究热点。HPC背景出身的研究员在这一领域中的参与度大幅上升,尽管对于大众而言,HPC在大语言模型(LLM)中的战略意义仍然较为晦涩。
清华大学的韩旭教授在北京新中关购物中心的俄式厨房中曾这样形容:“没有高性能计算,就没有大模型。”他的话语道出了HPC在LLM时代的重要地位。实际上,早在中国大模型研究初期,HPC科学家的身影就已经活跃其中。2020年,智源研究院为研究大模型购入了十台英伟达v100,正是清华高性能计算研究所的团队协助搭建了这些设备。
芯片厂商通常只提供机房设计方案,具体的搭建工作则需要专业的系统人才。从机器搭建到软件编写,再到大规模参数的计算和存储,以及机器间的通信问题,每一步都属于高性能计算的知识范畴。以计算为例,大模型的计算主要是矩阵乘法,而矩阵的大小和切割方式会直接影响计算结果和效率。因此,尽管HPC不是一门新学科,但在中间层降本增效方面,HPC技术在大模型时代扮演了核心角色。
中国的HPC发展经历了三个主要阶段:从自研或仿制计算机,到采购工作站研究可扩展软件系统,再到用自研处理器和芯片构建超级计算机。清华高性能计算研究所(以下简称“高性能所”)在这一历程中扮演了重要角色。上世纪九十年代,他们率先采购了多台工作站,通过高速网络连接并搭建并行计算软件,组成了高性能计算机,这一方法后来被国内其他团队广泛采用,推动了中国HPC研究的飞速发展。
高性能所的研究重点逐渐转向面向大规模集群系统的软件优化与应用。郑纬民教授作为这一领域的先驱科学家,对高性能计算和存储有着深刻的理解。他的研究起点可以追溯到上世纪七十年代,在清华大学的并行/分布实验室中,他见证了技术变革的光辉。回国后,他接任了计算机系统及应用教研组的主任一职,开始参与清华的大规模计算集群系统研究。
在郑纬民的带领下,高性能所成功研制了一系列集群计算机,并逐渐转向HPC应用与系统结构优化,以软件开发为主。他的学生杨广文和薛巍分别在2004年和2016年获得了全球高性能计算领域的最高奖——戈登贝尔奖,为中国超算技术的发展做出了重要贡献。
近年来,随着大模型的兴起,HPC科学家开始更多地关注这一新的计算负载。清华高性能所的翟季冬教授在2016年回国后,将研究方向从传统科学计算转向了AI系统软件。他带领团队参与了多个大模型的训练项目,包括在国产超级计算机上训练百万亿参数的MoE大模型,并开发了“八卦炉”大模型训练系统。
翟季冬的学生何家傲和翟明书分别提出了FastMoE和SmartMoE框架,这些工作在大模型训练优化方面取得了显著成效。高性能所还关注大模型的推理优化,章明星团队提出的Mooncake和KTransformers系统在大模型推理方面取得了重要突破。
Mooncake系统通过共享KVCache来节省算力消耗,而KTransformers系统则利用CPU和GPU的协同推理,解决了大模型在本地化部署中显存不足的问题。这些工作不仅在国内产生了广泛影响,也在国际上引起了巨大反响。
除了训练和推理优化外,高性能所还关注大模型的存储系统。陈康和闪英迪团队设计的MadFS分布式文件系统在IO500榜单上夺得了冠军,而陆游游团队开发的SuperFS文件系统则在数据带宽和元数据性能上取得了显著突破。这些工作为大模型的存储优化提供了有力支持。
在探索HPC技术的同时,高性能所也在关注下一代计算范式的研究。张悠慧教授在类脑计算领域取得了重要成果,她提出的类脑计算完备性概念为类脑计算系统的发展提供了理论基础。她还主导了天机一代和二代芯片的工具链研发工作,为类脑芯片的应用推广做出了贡献。
随着大模型时代的到来,HPC的机遇与挑战并存。高性能所的研究者们将继续在软硬协同设计、国产芯片支持等方面不断探索和创新,为推动中国AI技术的发展贡献力量。
郑纬民教授表示,尽管他已退休,但仍每天到实验室工作,他最大的成就是培养了一群优秀的年轻人。这些年轻人将继续在高性能计算领域探索和创新,为中国的AI技术发展贡献力量。