智东西作者 陈骏达编辑 漠影
全球科技竞争日益激烈,以AI为核心的新一轮技术革命推动算力需求呈指数级增长,而高性能、自主创新的计算基础设施的重要性也与日俱增。在此背景下,构建繁荣、开放的计算生态体系,培养顶尖创新人才变得尤为迫切。
在今年5月举办的鲲鹏昇腾开发者大会2025(KADC 2025)上,国内多所重点高校集中展示了基于鲲鹏昇腾技术路线的科研成果。
北京大学的Open-Sora Plan V1.5依托昇腾MindSpeed MM多模态大模型套件进行训练和优化,实现电影级视频生成。
清华系初创企业趋境科技推出的KTransformers框架基于鲲鹏CPU与昇腾NPU的异构协同优势,实现单卡运行千亿参数模型的突破。
上海交通大学的科研团队基于鲲鹏处理器自研了分子模拟高RBE算法,显著提升了计算效率,有望成为下一代分子动力学引擎发展的核心技术。
而上述成果仅仅是冰山一角。回顾去年的KADC大会,华为宣布与清华大学、北京大学、浙江大学、上海交通大学、中国科学技术大学5所高校开展合作,共同成立鲲鹏昇腾科教创新卓越中心,截止到今年KADC的举办,华为又新增了7所鲲鹏昇腾科教创新孵化中心高校的签约合作。
随着合作院校的扩展,有越来越多的高校算力集群平台获得了鲲鹏昇腾科教创新卓越/孵化中心提供的算力支持,为计算系统创新、科学应用创新提供了坚实底座。
一、北大华为:算力+平台协同效应显现,模型推理吞吐暴增200%
在北京大学于本届KADC 2025大会上发布的前沿成果中,Align-Anything框架无疑是焦点之一。作为全球首个开源的全模态对齐微调框架,Align-Anything解决了现有框架仅支持单一或少数模态对齐的问题,在一个模型内实现了图像、语音、视频、动作等模态的对齐。
其科研价值体现在多个方面:它支持任意到任意模态的对齐,开源了包含12种模态的200k对齐数据集,以及涵盖多个主流对齐微调算法(如SFT、RLHF、DPO、GRPO)的训练代码。
Align-Anything通过采用信息更丰富的多模态偏好数据(例如文本、图文音频等反馈,而非二元偏好),实现更准确、更细粒度的对齐,有效减少多模态融合带来的幻觉问题,在具身智能等场景下具有显著意义。
这种前沿的全模态大模型对齐研究,对底层高性能算力基础设施提出了极高的要求。那么,北京大学是如何构建并支撑这些创新研究的算力底座呢?
北京大学基于鲲鹏昇腾硬件,构建了北大卓越中心集群,为Align-Anything等前沿AI研究提供了坚实的算力支撑。从底层硬件到上层应用,该集群的技术栈均实现了自主创新。
其中,鹤思算力调度系统和SCOW(Super Computing On Web)算力平台系统是核心组成部分。鹤思是北大自研的开源调度系统,起初为解决海量小任务和超大规模集群性能问题。
随着国产化进程加速,鹤思强大的兼容性使其能适配包括鲲鹏、昇腾在内的国产计算设备及相关生态,实现高性能计算和智能计算场景下的资源、作业管理等功能。
SCOW平台则为用户提供便捷的可视化界面,大大降低了用户使用高性能计算资源的门槛。2024年,SCOW发展出SCOW for AI版本,专门面向AI计算中心,提供AI全流程的开发与部署辅助系统。
以Align-Anything为例,鹤思能够为其训练与推理提供高效的资源调度和管理,确保模型在昇腾NPU上的稳定运行,而SCOW则能够辅助其从数据集管理、算法管理、模型管理、训练管理等在内的AI训练完整流程。
鲲鹏昇腾科教创新卓越中心为北京大学的上述算力平台提供了从国产化算力底座到完备软件生态的全领域支撑。
在智东西与北京大学计算中心系统管理室主任樊春的交流中,我们了解到,根据北京大学用户一手体验后的评价,目前鲲鹏CPU的性能已经与国外传统CPU厂商基本拉齐,同时昇腾NPU在硬件性能、软件生态方面也正在迅速发展。
昇腾生态方面的变化给樊春留下了极为深刻的印象。在过去5年中,他明显感受到昇腾生态不断完善,逐渐能够适配大量的主流开发工具,程序、模型的移植只需几行代码就能完成。
目前,昇腾异构计算架构CANN已经迭代至8.0版本,创新开发100多个融合算子,覆盖MoE、多模态等主要场景,显著提升大模型性能。
CANN还支持安装PyTorch拓展前端,这意味着用户可以直接在昇腾设备上选择PyTorch作为前端推理框架,极大地便利了开发工作。
MindSpeed支持多种主流训练框架,方便科研人员灵活切换,其支持的Megatron训练框架,从并行策略、内存优化、亲和计算、通信优化等四大场景支持大语言模型、多模态模型等训练场景优化。MindIE、vLLM昇腾插件等工具帮助实现运行加速、调试调优和快速迁移部署。
在本届KADC大会上发布的Align-Anything框架就是昇腾生态的受益者之一。通过CANN的算子自动融合和vLLM昇腾插件等优化,Align-Anything节省了14.9%的训练时间,并提高了近200%的Tokens吞吐量。
樊春透露,北京大学 鲲鹏昇腾科教创新卓越中心的算力使用率维持70%左右,在高峰期常常能达到90%甚至是100%。用户对鲲鹏、昇腾产品的直观感受是“程序跑得通”、“性能还不错”,用户满意度较高。
这些用户的直观感受和真实数据,充分体现了鲲鹏昇腾科教创新卓越中心在构建高性能、易用性强的算力底座方面的全面支撑,有效推动了前沿AI研究的创新与发展。
二、上交✖华为:“交我算”鲲鹏算力助力科研,自研分子模拟算法实现突破
本届KADC 2025大会上,上海交通大学的科研团队也带来了在鲲鹏、昇腾支持下的最新科研成果。该校的徐振礼教授团队在鲲鹏处理器上实现了高精度、高效率及高扩展性的分子动力学模拟计算。除了算法本身的创新之外,这一研究成果也离不开上海交通大学自主研发的“交我算”平台的支持。
“交我算”自2013年开始建设,经过多年的发展,已建设成为国内领先的高校算力平台。鲲鹏昇腾科教创新卓越中心建成后,相关算力资源也接入了“交我算”平台,进一步扩展了其计算能力。
“交我算”目前涵盖云计算平台、AI计算平台、高性能计算平台、科学大数据平台等,通过构建统一的聚合门户,为用户提供一致的计算服务体验。
其实,早在2021年,上海交通大学便在“交我算”平台中上线了鲲鹏超算系统,这是国内高校第一个,也是目前规模最大的校级鲲鹏超算系统,拥有100个计算节点,共计12800个CPU核,过去数年中,鲲鹏超算支持了上海交通大学物理学、化学、生命科学、材料学等不同领域的科研项目,获得不少好评。
鲲鹏昇腾科教创新卓越中心建成后,据上海交通大学物理学院的一位教授分享,他们在交我算的鲲鹏超算上进行了大规模的蒙特卡诺模拟,ARM平台的效率甚至比自有的小型服务器快了1.5倍多。
上海交通大学材料学院的一位教授则称,“交我算”鲲鹏集群多核并行效率很高,远远超出想象,跨节点并行同样具有很好的效率。平台软件比较齐全,可无缝衔接,极为方便。
交我算平台所使用的鲲鹏处理器基于ARM指令集。该平台打造了多核集群架构,单节点配备128核,尤其适用于并行计算场景。这为“交我算”平台上的诸多科研项目提供了优化方向。
徐振礼教授团队的科研项目,便充分发挥了鲲鹏处理器的多核并行计算能力,团队使用MPI并行编程模型开发,对创新自研RBE算法实现了进程级并行。鲲鹏处理器还支持ARM NEON向量化指令集和鲲鹏数学库,实现了数据级并行,进一步提升了算法的运行效率。
鲲鹏昇腾科教创新卓越中心也支持了上海交通大学许多其他的科研项目。上海交通大学医学院的一篇科研论文,就是在鲲鹏平台的支持和卓越中心的计算资源保障下,登上了国际期刊Nature的子刊。
更为侧重AI计算能力的昇腾,不仅给上海交通大学的AI相关研究提供算力支持,也将AI带到了课堂教学之中。
基于昇腾算力本地化部署的国产模型,已成为了上海交通大学AI应用平台的新一代大模型底座,给高等数学、概率统计、线性代数等课程的数学深度推理AI学习工具带来升级,支持了从科研到教育实践的全链条创新。
结语:鲲鹏昇腾深耕高校,培育未来自主创新人才
鲲鹏昇腾科教创新卓越/孵化中心与国内高校的紧密合作,正在构建一种创新性的产学研协同创新范式,这种合作模式并非只是简单的硬件设施供给,而是致力于打造一个完整的自主创新人才培养生态系统。
这种模式首先为高校教育注入了产业活力。鲲鹏昇腾科教创新卓越/孵化中心将实际应用中的真实案例、前沿技术和行业标准带入课堂,丰富了教育的场景,有效弥补了产教之间的鸿沟。
对高校学生而言,鲲鹏昇腾科教创新卓越/孵化中心让他们于在校期间就能接触鲲鹏、昇腾技术,并完整参与国产技术体系的实践。这种模式让人才培养不再滞后于产业发展,而是实现了与产业需求的同步,不仅为学生们赢得了显著的职业发展优势,也为产业的未来发展储备了强大的智力资源。
同时,高校的创新能力与企业的工程化能力通过算力平台实现有机结合,最终加速了科研创新成果的产出,并促进了科研成果的快速转化和落地。
从更为宏观的角度来看,鲲鹏昇腾科教创新卓越/孵化中心通过与高校的紧密合作,提前培养了一批兼具“国产技术基因”与深厚专业素养的人才。他们不仅具备过硬的技术能力,而且对以鲲鹏昇腾为代表的自主技术有着深刻的价值认同与情感归属,有望成为未来科技创新的“种子”。
展望未来,这种模式有望逐渐形成一个良性循环的生态系统。企业与高校联手培育大量优质人才,而人才在高校科研过程中积累的知识资产,将为产业升级提供助力,进而反哺整个产业生态的蓬勃发展。