谷歌DeepMind近日宣布推出一种名为“解耦式DiLoCo”的分布式训练架构,这项技术革新为大规模人工智能模型训练带来了显著效率提升,尤其在应对硬件故障时展现出更强的稳定性。传统训练方法依赖所有计算单元同步更新梯度,这种高度耦合的模式导致系统极易因单一硬件故障而整体停滞,而新架构通过解耦设计有效解决了这一痛点。
解耦式DiLoCo的核心机制是将训练任务拆分为多个独立运行的“学习单元”,每个单元可在本地完成多次梯度计算后,仅将压缩后的梯度信息异步传输至中央优化器进行汇总。这种异步通信模式使不同单元无需等待彼此进度,即使部分单元出现故障,其他单元仍能持续训练,从而避免了传统方法中因单点失效导致的训练中断。实验数据显示,在硬件故障率较高的场景下,该架构仍能保持88%的系统利用率,而传统数据并行方法的利用率仅27%。
该架构的另一突破在于显著降低了跨数据中心通信需求。通过优化梯度压缩与传输协议,解耦式DiLoCo将数据中心间带宽消耗从198Gbps压缩至0.84Gbps。这一改进使得利用现有商业互联网基础设施实现全球分布式训练成为可能,大幅降低了跨地域协作的技术门槛与成本。
系统自愈能力是解耦式DiLoCo的又一亮点。在混沌工程测试中,当整个学习单元集群意外失效时,系统不仅能维持剩余单元的训练进程,还能在故障单元恢复后自动重新整合计算资源。这种弹性设计支持不同代际TPU芯片混合使用,既延长了旧设备的使用周期,也缓解了硬件升级过程中的算力瓶颈问题。技术团队表示,这种异构硬件兼容性为资源有限的研究机构提供了更灵活的算力配置方案。
据研发团队介绍,解耦式DiLoCo已在实际场景中完成验证。某千亿参数模型训练任务中,该架构在经历多次硬件故障后仍按时完成训练,且最终模型精度与传统方法持平。这项技术有望推动AI训练向更高效、更可靠的方向发展,特别适用于需要长期运行或跨地域协作的大规模训练项目。











