在2025年世界互联网大会・乌镇峰会前沿人工智能模型论坛上,蚂蚁集团平台技术事业群总裁骆骥透露,该集团已建成万卡规模的国产算力集群。该集群不仅适配自主研发模型及主流开源框架,训练任务稳定性突破98%,其训练与推理性能更达到国际先进水平,目前正全面支撑安全风控领域的大模型应用。
今年3月,蚂蚁集团Ling团队在Arxiv预印本平台发布技术论文《每一个FLOP都至关重要:无需高级GPU即可扩展3000亿参数混合专家LING大模型》,宣布推出百灵轻量版(Ling-Lite)与百灵增强版(Ling-Plus)两款混合专家(MoE)大语言模型。研究团队通过架构创新与训练策略优化,首次实现3000亿参数大模型在国产GPU设备上的高效训练,其性能表现与使用英伟达高端芯片的同规模模型持平。
传统MoE模型训练高度依赖英伟达H100/H800等高性能GPU,不仅硬件成本高昂,更面临全球芯片短缺的困境。蚂蚁团队提出的"无高级GPU"训练方案,通过动态参数分配技术实现计算资源的高效利用,混合精度调度策略则显著降低内存占用。在异常处理方面,自适应容错恢复系统将中断响应时间压缩至行业平均水平的三分之一。
该团队构建的自动化评测框架使模型验证周期缩短超50%,基于知识图谱的指令微调技术更将复杂任务执行精度提升18%。实验数据显示,采用国产GPU训练的3000亿参数MoE模型,在推理速度、任务完成率等核心指标上,已达到使用英伟达全系芯片训练的稠密模型及MoE模型水准,为资源受限场景下的模型部署开辟新路径。
这套创新训练体系包含四大核心技术突破:架构层面采用动态专家激活机制,使单卡有效计算量提升40%;训练策略引入渐进式负载均衡算法,解决MoE模型常见的专家冷启动问题;异常处理系统通过预测性检查点机制,将训练中断恢复时间从小时级压缩至分钟级;评估体系则开发出多维度自动化评测工具,实现模型性能的实时动态监测。









