摩尔线程近期举办了一场以“算力进化与精度革命”为核心议题的技术分享盛会,会上正式推出了其“AI工厂”的核心理念。公司创始人兼首席执行官张建中在会上强调,面对生成式人工智能领域的爆发式增长以及大模型训练效率所面临的瓶颈,摩尔线程决心通过一系列系统级的工程创新,打造新一代AI训练基础设施,旨在为即将到来的AGI(通用人工智能)时代构建一个能够高效生产先进模型的“超级工厂”。
据张建中介绍,摩尔线程的“AI工厂”理念,旨在通过从底层芯片架构的创新到集群整体架构的优化,再到软件算法和资源调度系统的全面升级,实现全方位的基础设施变革。这一变革将推动AI训练规模从千卡级向万卡级乃至十万卡级迈进,从而实现生产力和创新效率的显著提升。
在分享会上,张建中详细阐述了决定“AI工厂”成功与否的五大核心要素,即加速计算的通用性、单芯片的有效算力、单节点的效率、集群效率以及集群的稳定性。他强调,这些因素之间是相互乘积的关系,因此每个环节都必须达到极致。
为了提升加速计算的通用性,摩尔线程以全功能GPU为核心,构建了一个既“功能完备”又“精度完整”的通用性底座,全面覆盖了从AI训练、推理到科学计算的各种场景需求。同时,基于其独特的MUSA架构,摩尔线程在计算、内存和通信方面取得了三重突破,显著提升了单GPU的运算效率。通过MUSA全栈系统软件,摩尔线程还进一步提高了单节点的计算效率。
然而,当单节点效率达到新高后,如何实现大规模集群的高效协作成为了新的挑战。为此,摩尔线程推出了KUAE计算集群,该集群通过5D大规模分布式并行计算技术,成功实现了上千节点的高效协作,从而推动了AI基础设施从单点优化向系统工程级突破的跨越。
在集群稳定性方面,张建中指出,万卡级AI集群中硬件故障导致的训练中断会严重浪费算力。为了解决这一问题,摩尔线程研发了零中断容错技术,该技术能够在故障发生时仅隔离受影响的节点组,而让其余节点继续训练,备机无缝接入,确保全程无中断。KUAE集群还通过多维度训练洞察体系实现动态监测与智能诊断,结合集群巡检与起飞检查,为大规模AI训练提供了稳定可靠的保障。
摩尔线程的全功能GPU不仅在图形渲染领域发挥着基石作用,更成为了AI算力的强大引擎。张建中表示,以“KUAE+MUSA”为智算业务的核心,摩尔线程将加速推动全功能GPU驱动的AI技术在物理仿真、AIGC、科学计算、具身智能、智能体、医疗影像分析以及工业大模型等关键领域的应用与部署。这一举措无疑将为千行百业带来前所未有的变革与机遇。
通过此次技术分享会,摩尔线程不仅展示了其在AI领域的前沿技术和创新理念,更向世界宣告了其致力于打造AI时代“超级工厂”的决心和实力。随着技术的不断进步和应用场景的持续拓展,摩尔线程的全功能GPU及其“AI工厂”理念无疑将为人工智能的未来发展注入新的活力和动力。