在人工智能训练领域,一项突破性研究正挑战着行业长期坚守的“铁律”——传统观念认为,训练AI必须使用全新数据,旧数据用过即弃。然而,meta旗下基础人工智能研究团队与纽约大学柯朗研究所的联合研究,通过大量实验证明,在特定条件下,重复利用旧数据不仅能显著降低训练成本,还能提升模型性能。这一发现为大型语言模型(LLM)的强化学习训练开辟了新路径。
强化学习是训练AI的核心环节之一,其过程类似“考试-批改”循环:AI通过生成大量练习素材(如回答问题的完整文本)进行自我评估,再根据反馈调整参数。然而,生成这些素材的计算成本极高,在顶尖训练流水线中,仅这一环节就消耗超80%的资源,相当于八成电费用于“出题”而非“批改”。更关键的是,当前主流模式采用“生成即丢弃”策略,每次训练后直接丢弃素材,导致资源严重浪费。
研究团队提出的解决方案名为“经验回放”(Experience Replay),其核心是将生成的练习素材存入“题库”(重放缓冲区),训练时从题库中随机抽取旧素材重复使用,而非每次都生成新数据。这一技术虽在游戏AI领域早已成熟,但在大语言模型训练中长期被忽视。研究团队通过系统实验,首次明确了题库设计的关键原则:如何平衡数据新鲜度、计算效率与多样性。
题库设计的核心矛盾在于“过期度”——随着AI参数不断更新,旧素材与当前模型水平的差距逐渐扩大,可能引入错误信号。研究团队通过数学建模量化了这一关系:题库规模越大,素材平均过期度越高,但随机抽题可降低局部重复率(即短时间内连续使用同一素材),避免模型陷入“死记硬背”;反之,题库过小会导致局部多样性丧失,训练效果下降。研究还区分了“全局多样性”(整个训练周期中素材的平均使用次数)与“局部多样性”(短时间内连续使用同一素材的程度),指出局部多样性的损失危害更大。
为优化题库设计,研究团队构建了非凸随机优化数学框架,推导出最优题库规模的计算公式。该公式表明,当生成素材的计算成本(μ值)远高于训练一步成本时,扩大题库规模、提高重放比率(同一素材被重复使用的次数)可显著提升效率。例如,在参数量为7亿的Qwen2.5-7B模型中,μ值约为5.28,意味着生成一批素材的成本是训练一步的5.28倍。此时,若配置4个推理GPU(负责生成素材)和4个训练GPU(负责调整参数),计算比率γ可低至0.32,即每次参数更新仅需原成本32%,节省68%的计算开销。
实验验证了理论的有效性。研究团队在Qwen3-0.6B和Qwen2.5-7B模型上,使用数学推理数据集进行测试,发现题库规模扩大虽会减缓训练速度,但能稳定训练过程,防止模型崩溃,并提升输出多样性。例如,在评估模型解题能力的MATH基准测试中,使用题库的模型不仅达到更高准确率峰值,且崩溃时间更晚。题库还显著提升了“pass@k”指标(即对同一问题尝试k次至少答对一次的概率),表明模型保留了更丰富的解题思路。
进一步优化中,研究团队提出两种改进策略:一是“正偏向采样”,即题库中保留一部分最新正确解答的素材,因其“有效期”更长;二是更换训练损失函数,采用AsymRE替代标准GRPO,以规避高过期度下的方差问题。实验显示,两种策略结合使用可进一步提升训练效果。
这一研究对AI训练的普及具有实际意义。降低计算成本意味着在相同预算下可训练更强模型,或以更低成本提供AI服务。例如,若训练成本降低40%,AI公司可将资源投入模型优化或价格竞争,加速技术落地。然而,研究团队也指出,当前实验仅限于0.6亿至8亿参数的模型,在更大规模模型(如数百亿参数)上的有效性仍需验证。题库规模和重放比率的最优设置依赖模型特定的μ值,实际部署需针对具体环境调优。
该研究引发了对AI训练领域“常识性偏见”的反思:若反复使用旧数据这一反直觉策略已被证明更优,那么还有多少类似偏见正在浪费计算资源?这一问题的答案,或许将推动整个领域探索更高效的训练方法。








