ITBear旗下自媒体矩阵:

天津大学等高校联合破局:AI异步训练“旧概率缺失”难题有解了

   时间:2026-05-20 06:22:23 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

在人工智能训练领域,一项由多所顶尖高校及研究机构联合完成的研究,为解决异步强化学习中的关键技术难题提供了新思路。该成果发表于国际顶级学术会议,针对大模型训练中普遍存在的“旧策略概率缺失”问题,提出了一套从工程优化到算法改进的系统性解决方案,相关论文可通过学术平台查询完整内容。

强化学习作为AI智能体提升能力的核心方法,其训练过程类似于“试错-评分-改进”的循环。以对话模型训练为例,系统会先让模型生成回答,再根据回答质量调整策略参数。这一过程中,近端策略优化(PPO)算法通过计算“重要性比率”来衡量新旧策略的差异,确保策略更新平稳可控。然而,当训练系统采用异步架构时,生成回答与更新策略由不同计算单元并行处理,导致训练系统难以获取生成回答时对应的旧策略参数,这一技术漏洞被称为“旧逻辑值缺失”。

研究团队指出,该问题会引发双重偏差:一方面,推理引擎与训练引擎因数值计算方式差异导致概率计算结果不一致;另一方面,策略更新过程中,旧策略参数被新版本覆盖,导致训练系统用新策略标准评估旧策略生成的回答。这两种偏差相互纠缠,使得重要性比率的计算失去语义准确性,最终导致训练效率下降甚至模型性能退化。现有训练框架多采用插值代理策略绕过该问题,但数学证明显示,这类方法仅是改变了约束条件的表达形式,并未真正恢复缺失的旧策略信息。

为破解这一难题,研究团队提出三条工程优化路径。第一条路径通过定期保存模型参数快照,在需要时重新加载计算旧策略概率。实验表明,该方法对40亿参数模型单步训练增加约95秒耗时,300亿参数模型则需额外178秒及76GB内存。第二条路径采用专用模型实例专门计算旧策略概率,与主模型并行运行。当资源分配比例为1:2时,训练时间可节省6.8%,但比例调整至1:3时反而增加7.17%耗时。第三条路径在策略更新前主动中断部分对话生成任务,利用旧参数未被覆盖的窗口期计算概率。该方法无需存储历史参数,但会引入同步停顿,增加系统调度复杂度。

针对工程方案的高成本问题,研究团队重点开发了基于指数加权移动平均(EWMA)的近似算法PPO-EWMA。该算法通过动态调整历史策略的权重,构建出一个随时间演变的代理参考策略。其创新之处在于:根据异步程度自适应确定衰减系数,使代理策略的“记忆中心”与缺失的旧策略时间位置对齐;引入自动重置机制,当历史偏差积累超过阈值时,将代理策略重置为当前策略,防止训练崩溃。实验数据显示,在40亿参数模型上,PPO-EWMA在零售场景的pass@4指标达到90.35,接近快照方案的90.47;在300亿参数模型的航空场景测试中,其pass@4得分达82分,优于快照方案的80分。

系统成本分析显示,PPO-EWMA对40亿参数模型仅需额外7.9GB内存和8秒耗时,300亿参数模型需15.2GB内存和34秒耗时,仅为快照方案成本的五分之一。进一步实验表明,差异修正的过滤阈值与策略陈旧的约束阈值存在动态关联:宽松的策略约束会加速早期训练但引入噪声,严格的差异修正会减少训练信号但提升稳定性。这一发现验证了两种修正机制需独立设计的必要性。

该研究通过数学推导与大规模实验证明,异步强化学习中的策略版本对齐问题不可忽视。PPO-EWMA算法及其自动重置机制,为工业级训练系统提供了低成本解决方案,其核心思想已通过40亿至300亿参数模型的测试验证。论文详细披露了所有数学证明、系统测量数据及实验配置,为后续研究提供了重要参考。对于需要处理异步训练场景的开发者,该成果提出的分层约束设计理念与动态参考策略构建方法,具有直接的应用价值。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version