ITBear旗下自媒体矩阵:

从PPO到MaxRL:强化学习算法迭代,解锁LLM推理训练新可能

   时间:2026-05-05 16:07:58 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

近年来,强化学习在大语言模型(LLM)后训练技术中占据核心地位,成为推动模型能力提升的关键力量。从GPT-3到InstructGPT的转变,强化学习发挥了重要作用,如今更是引领推理能力提升的浪潮。第一代针对LLM的强化学习以PPO(近端策略优化)为主导,该方法最初为传统强化学习场景开发,后成功适配到RLHF(基于人类反馈的强化学习)中。

随着对推理能力提升目标的追求,第二代强化学习方法带来算法演进,短时间内涌现大量变体。这些变体虽与前代方法差异细微,但影响深远。本文聚焦2024至2026年用于推理LLM的强化学习主要进展,从基础知识REINFORCE和PPO讲起,探讨后续改进与优化方法。

强化学习可借助机器人房间导航的例子理解:状态是机器人当前位置和传感器读数,动作是移动指令,状态转移由物理规律决定,奖励反映向目标推进的程度。智能体目标是最大化期望的折扣回报,其策略通常由参数θ表示,价值函数衡量在策略π下处于状态s的好坏程度,优势则用于评估具体动作的优劣。

在LLM设定中,状态为“提示词加上之前生成的token”,动作为下一个token。实际操作中,难以给单个token分配有意义奖励,通常只为完整回复提供整体奖励。REINFORCE是所有策略梯度方法的基础,其目标函数和梯度形式简单易懂。与监督微调对比,REINFORCE本质是带有权重的SFT形式,根据奖励对采样的同策略答案加权,强化或惩罚它们。不过,REINFORCE存在方差较大的缺点,通过减去与采样动作无关的基线可降低方差,此时梯度中的数量r(x,y)-b(x)便是优势估计的最简单形式。

PPO曾是通用策略梯度算法的主导,也是RLHF的默认选择。其目标函数形式复杂,引入比例是为了纠正推演数据生成成本高、重复用于多个训练步骤时训练策略与生成策略不匹配的问题。裁剪操作限制优化过程偏离生成策略的程度,是PPO对信任域的近似计算。裁剪会影响目标函数值及其对θ的依赖关系,被裁剪情况产生零梯度,跳过超出信任域的更新。PPO本质上是一个带有信任域掩码、经过重要性加权的策略梯度方法,其优势估计使用广义优势估计器(GAE),但GAE需要学习价值函数,增加内存消耗和训练复杂性。

GRPO(组相对策略优化)移除PPO的价值模型,以相对组内的基线替代。一条推演数据的基线是同一提示词下其他推演数据的表现,在奖励稀疏但每个提示词可获得多个样本时效果显著。GRPO目标函数保留PPO风格的裁剪重要性采样,组内归一化使学习信号相对当前提示词,降低对奖励尺度的敏感度。GRPO成功的重要原因是移除critic模型,减少内存占用,使大规模强化学习更易运行。

RLOO从不同方向得出类似结论,认为PPO在LLM微调场景可能过于复杂。对于每个提示词,RLOO采样K个回复,回复优势等于其奖励减去其他K - 1个回复的平均奖励,基线无偏且无需学习额外价值模型。RLOO放弃PPO风格的裁剪,回到纯粹的REINFORCE风格更新。

DeepSeek指出,随着强化学习训练推进,回复长度大幅增加,标准样本级损失归一化引入偏置,倾向于支持简短正确回复和冗长错误回复。Dr. GRPO修复这一问题,不再先除以序列长度再除以批次大小,而是除以固定常量,消除错误答案冗长的激励因素,同时移除另一种引入有害偏置的归一化操作。

DAPO(解耦优势策略优化)对GRPO多个组件深入分析并提出四项改进。一是将样本级均值计算替换为基于token级别的聚合计算;二是针对裁剪机制,采用非对称裁剪,放宽上界,保留原有下界;三是增加超长奖励塑形,在硬性截断前增加软性惩罚区域,创造更明确学习信号;四是采用动态采样,确保每个提示词提供学习信号,提升单步效率。

CISPO(裁剪重要性采样策略优化)针对PPO风格裁剪的弱点,将裁剪与梯度流解耦,仅裁剪重要性采样权重并应用停止梯度操作,保留所有token的梯度正常反向传播,带来更稳定训练过程,不抑制对高信息量token的学习。

MaxRL基于计算量索引截断定义目标函数家族,其期望梯度与目标相匹配的同策略估计器简单,仅对成功轨迹的得分函数求均值。增加推演次数不仅能降低估计器方差,还能使优化目标更好地逼近最大似然估计,提升pass@k性能,保留输出多样性,在测试时算力扩展效率上带来巨大收益。

DPPO(散度PPO)重新审视信任域问题,认为PPO基于采样token概率比例进行裁剪不能很好代表实际策略散度,尤其是对罕见token。DPPO用基于预估策略散度定义的信任域取代基于比例的掩码,采用二元近似或Top - K近似方法计算散度,屏蔽预估散度超过阈值的更新,使训练更稳定。

ScaleRL重点探索算力规模大幅扩张后的设计选择,通过超过40万GPU小时的消融实验,拟合“性能与算力”曲线分析不同方法。其主要发现包括:异步强化学习通过流水线式异步设置提升计算效率;在异策略损失函数中,CISPO和GSPO渐近性能优于DAPO;在FP32精度下计算语言模型头可缓解数值不匹配问题,提升渐近性能;提示词级别的平均化损失聚合性能最佳;零方差过滤排除无学习信号的提示词加速训练;无正向重采样排除正确答案过多的提示词实现更高渐近性能。

纵观这些方法,有几个模式反复出现。对于LLM训练,critic模型似乎不再是必需项,更简单的基线设定可达到甚至超越学习到的价值函数效果,还能节省内存。标准差归一化往往产生副作用,使模型过度关注几乎已解决的问题。损失聚合是关键环节,不当选择会引入偏置。信任域是优化切入点,不同方法对信任域的定义和改进带来更优性能。目前一份初步的最佳实践正在成型,但新方法或新细节的引入可能随时颠覆现状。

尽管强化学习在LLM领域进展迅速,但仍面临一些根本性挑战。信用分配机制效率低,导致推理失败的关键token与无关token接收相同信号;样本效率问题突出,依赖生成多个推演结果构建相对基线成本高昂;对于模型始终无法生成正确推演结果的提示词,现有方法无法提供梯度;将方法扩展到数学和代码领域之外的任务面临诸多困难;该领域大部分证据仍停留在实证层面,适用范围窄,复现成本高,对方法实际了解可能不足。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version