ITBear旗下自媒体矩阵:

国产算力再进一步:千卡集群助力万亿级MoE大模型全参数稳定训练

   时间:2026-06-09 09:48:50 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

近日,深圳河套学院AI训练平台项目团队携手哈尔滨工业大学(深圳)、深圳市大数据研究院、华为GTS等机构,在国产算力大模型训练领域取得关键进展。该团队以昇腾910C国产算力集群为基础,成功完成DeepSeek-V4-Pro全参数后训练工程实践,实现从推理部署向超大模型全参数训练的技术跨越。

作为拥有1.6万亿参数的MoE架构开源旗舰模型,DeepSeek-V4-Pro采用CSA+HCA混合稀疏注意力机制和mHC连接技术,对训练框架的稳定性、算力利用率及算子效率提出严苛要求。项目团队仅用一个月时间,便在千卡级国产算力集群上实现该模型全参数续训练与监督微调(SFT)的稳定运行,累计完成超1500步迭代训练,全程未出现迭代跳过或数值异常。

技术突破体现在三大核心领域:一是构建分布式承载方案,通过数据并行、张量并行、流水并行与专家并行的协同机制,实现权重、梯度、激活及优化器状态的高效管理;二是优化MoE路由算法与稀疏注意力算子,建立动态专家负载均衡机制,使通信效率提升约14%;三是开发全指标可视化监控系统,在连续多日训练中保持Loss值稳定,未出现NaN异常。

训练性能指标显著提升:模型算力利用率(MFU)最终稳定在34.9%,单步训练时间压缩至27秒,关键算子效率较初始版本提高14%。团队同步打通DeepSeek-V4-Flash全参数训练链路,形成可复现的万亿级模型训练能力。经工业级自动化运筹建模场景验证,该方案可在短周期、低成本条件下完成行业大模型的专项增强训练。

在数学建模能力验证环节,项目团队构建专用SFT数据生产流程,生成覆盖4类任务目标、3种问题形态的3000条高质量样本。训练后模型LM Loss降至0.2056,MTP 1 Loss降至0.2538,梯度曲线保持平稳。Benchmark评测显示,ORGeval WL指标提升超5个百分点,复杂推理与建模能力获得实质性增强。

此次工程实践标志着国产AI基础设施迈入新阶段,其技术方案已形成完整的工具链与监控体系,为金融、制造、科研等领域的大模型定制化训练提供了可落地的解决方案。项目成果通过闭环验证,证明国产算力集群在处理超大规模参数模型时的可靠性与经济性。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version