蚂蚁集团与清华大学联合宣布,正式推出开源强化学习训练框架AReaL v1.0稳定版。这一系统专为大规模异步强化学习设计,通过彻底解耦数据生成与模型训练流程,显著提升了大语言模型在推理任务中的训练效率,尤其适用于需要处理海量思考Token的复杂场景。
传统强化学习训练系统普遍采用同步机制,要求生成阶段必须等待批次中最慢的输出完成才能启动训练。这种"木桶效应"导致大量GPU资源长期闲置,在处理需要生成数万个思考Token的数学推理或代码生成任务时,效率瓶颈尤为突出。研究团队指出,同步系统的硬件利用率不足问题已成为制约大模型训练规模扩展的关键因素。
AReaL系统采用完全异步架构,通过流水线式并行设计打破传统限制。生成工作器可持续不断产生新数据,训练工作器则在数据积累到阈值后立即启动模型更新,两个环节完全独立运行。这种设计消除了同步等待时间,使硬件资源利用率提升数倍,训练过程呈现连续流畅特征。实验数据显示,在相同GPU配置下,系统处理复杂推理任务的速度较主流同步方案提升最高达2.77倍。
针对异步训练带来的数据"陈旧度"挑战,研发团队创新性地提出陈旧度感知训练机制。该机制通过动态调整工作负载分配,在保证训练稳定性的同时最大化数据新鲜度。系统还引入解耦PPO目标函数与可中断生成技术,允许模型在生成过程中实时接收权重更新,彻底消除传统方案中"生成-训练"的割裂状态。
性能验证显示,AReaL在数学推理(GSM8K、MATH)和代码生成(Humaneval)等基准测试中表现优异。除训练速度显著提升外,模型在部分任务中的解题准确率反而出现增长。研究团队认为,异步架构带来的持续数据流动和模型更新,可能有助于大语言模型保持更优的推理状态。该框架现已开源,开发者可通过指定渠道获取完整代码与文档。











