蚂蚁集团近日宣布,其自主研发的万亿参数强化学习高性能权重交换框架Awex正式开源。这一框架专为提升训练推理引擎的权重同步效率设计,能够有效解决强化学习流程中训练权重参数向推理模型同步的关键技术瓶颈,支持在秒级时间内完成TB级大规模参数的快速交换,显著降低模型训练延迟。
作为蚂蚁ASystem强化学习系统的核心组件,Awex为百灵万亿模型训练提供了重要技术支撑。该框架通过优化权重同步机制,实现了训练与推理环节的高效衔接,尤其在处理超大规模参数时表现出色。蚂蚁集团透露,未来将持续开源ASystem的其他核心强化学习组件,逐步构建完整的开源训练生态体系。
强化学习技术已成为当前大模型后训练阶段的核心驱动力。从ChatGPT采用的RLHF(基于人类反馈的强化学习)方法,到DeepSeek、Claude、Llama等主流模型的后训练体系,均依赖强化学习技术优化模型输出,使其更贴合人类偏好并增强推理能力。这项技术正在持续拓展人工智能模型的智能边界,推动行业向更高水平发展。
今年10月,蚂蚁集团已开源两款万亿参数旗舰模型:非思考型模型Ling-1T与思考型模型Ring-1T。其中,Ring-1T基于自研的Awex框架构建,在数千张GPU集群环境下实现了5至10秒内完成万亿级参数的权重同步。这一突破性进展验证了Awex框架在超大规模模型训练中的技术优势,为行业提供了高性能、低延迟的解决方案。











