滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

从PPO到MaxRL：强化学习算法迭代，解锁LLM推理训练新可能

时间：2026-05-05 16:07:58 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

近年来，强化学习在大语言模型（LLM）后训练技术中占据核心地位，成为推动模型能力提升的关键力量。从GPT-3到InstructGPT的转变，强化学习发挥了重要作用，如今更是引领推理能力提升的浪潮。第一代针对LLM的强化学习以PPO（近端策略优化）为主导，该方法最初为传统强化学习场景开发，后成功适配到RLHF（基于人类反馈的强化学习）中。

随着对推理能力提升目标的追求，第二代强化学习方法带来算法演进，短时间内涌现大量变体。这些变体虽与前代方法差异细微，但影响深远。本文聚焦2024至2026年用于推理LLM的强化学习主要进展，从基础知识REINFORCE和PPO讲起，探讨后续改进与优化方法。

强化学习可借助机器人房间导航的例子理解：状态是机器人当前位置和传感器读数，动作是移动指令，状态转移由物理规律决定，奖励反映向目标推进的程度。智能体目标是最大化期望的折扣回报，其策略通常由参数θ表示，价值函数衡量在策略π下处于状态s的好坏程度，优势则用于评估具体动作的优劣。

在LLM设定中，状态为“提示词加上之前生成的token”，动作为下一个token。实际操作中，难以给单个token分配有意义奖励，通常只为完整回复提供整体奖励。REINFORCE是所有策略梯度方法的基础，其目标函数和梯度形式简单易懂。与监督微调对比，REINFORCE本质是带有权重的SFT形式，根据奖励对采样的同策略答案加权，强化或惩罚它们。不过，REINFORCE存在方差较大的缺点，通过减去与采样动作无关的基线可降低方差，此时梯度中的数量r(x,y)-b(x)便是优势估计的最简单形式。

PPO曾是通用策略梯度算法的主导，也是RLHF的默认选择。其目标函数形式复杂，引入比例是为了纠正推演数据生成成本高、重复用于多个训练步骤时训练策略与生成策略不匹配的问题。裁剪操作限制优化过程偏离生成策略的程度，是PPO对信任域的近似计算。裁剪会影响目标函数值及其对θ的依赖关系，被裁剪情况产生零梯度，跳过超出信任域的更新。PPO本质上是一个带有信任域掩码、经过重要性加权的策略梯度方法，其优势估计使用广义优势估计器（GAE），但GAE需要学习价值函数，增加内存消耗和训练复杂性。

GRPO（组相对策略优化）移除PPO的价值模型，以相对组内的基线替代。一条推演数据的基线是同一提示词下其他推演数据的表现，在奖励稀疏但每个提示词可获得多个样本时效果显著。GRPO目标函数保留PPO风格的裁剪重要性采样，组内归一化使学习信号相对当前提示词，降低对奖励尺度的敏感度。GRPO成功的重要原因是移除critic模型，减少内存占用，使大规模强化学习更易运行。

RLOO从不同方向得出类似结论，认为PPO在LLM微调场景可能过于复杂。对于每个提示词，RLOO采样K个回复，回复优势等于其奖励减去其他K - 1个回复的平均奖励，基线无偏且无需学习额外价值模型。RLOO放弃PPO风格的裁剪，回到纯粹的REINFORCE风格更新。

DeepSeek指出，随着强化学习训练推进，回复长度大幅增加，标准样本级损失归一化引入偏置，倾向于支持简短正确回复和冗长错误回复。Dr. GRPO修复这一问题，不再先除以序列长度再除以批次大小，而是除以固定常量，消除错误答案冗长的激励因素，同时移除另一种引入有害偏置的归一化操作。

DAPO（解耦优势策略优化）对GRPO多个组件深入分析并提出四项改进。一是将样本级均值计算替换为基于token级别的聚合计算；二是针对裁剪机制，采用非对称裁剪，放宽上界，保留原有下界；三是增加超长奖励塑形，在硬性截断前增加软性惩罚区域，创造更明确学习信号；四是采用动态采样，确保每个提示词提供学习信号，提升单步效率。

CISPO（裁剪重要性采样策略优化）针对PPO风格裁剪的弱点，将裁剪与梯度流解耦，仅裁剪重要性采样权重并应用停止梯度操作，保留所有token的梯度正常反向传播，带来更稳定训练过程，不抑制对高信息量token的学习。

MaxRL基于计算量索引截断定义目标函数家族，其期望梯度与目标相匹配的同策略估计器简单，仅对成功轨迹的得分函数求均值。增加推演次数不仅能降低估计器方差，还能使优化目标更好地逼近最大似然估计，提升pass@k性能，保留输出多样性，在测试时算力扩展效率上带来巨大收益。

DPPO（散度PPO）重新审视信任域问题，认为PPO基于采样token概率比例进行裁剪不能很好代表实际策略散度，尤其是对罕见token。DPPO用基于预估策略散度定义的信任域取代基于比例的掩码，采用二元近似或Top - K近似方法计算散度，屏蔽预估散度超过阈值的更新，使训练更稳定。

ScaleRL重点探索算力规模大幅扩张后的设计选择，通过超过40万GPU小时的消融实验，拟合“性能与算力”曲线分析不同方法。其主要发现包括：异步强化学习通过流水线式异步设置提升计算效率；在异策略损失函数中，CISPO和GSPO渐近性能优于DAPO；在FP32精度下计算语言模型头可缓解数值不匹配问题，提升渐近性能；提示词级别的平均化损失聚合性能最佳；零方差过滤排除无学习信号的提示词加速训练；无正向重采样排除正确答案过多的提示词实现更高渐近性能。

纵观这些方法，有几个模式反复出现。对于LLM训练，critic模型似乎不再是必需项，更简单的基线设定可达到甚至超越学习到的价值函数效果，还能节省内存。标准差归一化往往产生副作用，使模型过度关注几乎已解决的问题。损失聚合是关键环节，不当选择会引入偏置。信任域是优化切入点，不同方法对信任域的定义和改进带来更优性能。目前一份初步的最佳实践正在成型，但新方法或新细节的引入可能随时颠覆现状。

尽管强化学习在LLM领域进展迅速，但仍面临一些根本性挑战。信用分配机制效率低，导致推理失败的关键token与无关token接收相同信号；样本效率问题突出，依赖生成多个推演结果构建相对基线成本高昂；对于模型始终无法生成正确推演结果的提示词，现有方法无法提供梯度；将方法扩展到数学和代码领域之外的任务面临诸多困难；该领域大部分证据仍停留在实证层面，适用范围窄，复现成本高，对方法实际了解可能不足。

更多>同类资讯

存储巨头锁定长期订单：精准预判需求，产能扩张与技术研发双轮驱动

05-05

郭明錤透露：OpenAI加速AI Agent手机开发 2027年或量产用天玑9600定制芯

05-05

中国移动AI-eSIM产品即将亮相实时调度云端模型赋能智能终端新体验

05-05

荣耀ROBOT Phone闪耀CES 2026，获海外媒体盛赞与最佳产品奖

05-05

AI芯片企业Cerebras计划IPO，预估至少筹集32.2亿美元

05-05

郭明錤：OpenAI首款AI Agent手机目标最快于2027年上半年量产，预计采用天玑9600定制版本

05-05

豆包要推付费版了，有件事比值不值更重要

05-05

“收费就卸载！”豆包付费测试冲上热搜，AI大模型告别“纯免费”时代？

05-05

中国消费力被低估？透视数据背后：民生保障与海外市场的增长密码

05-05

一季度31省份GDP数据出炉：区域分化明显，一线城市引领高质量发展

05-05

中国造人形机器人“坐”美航班机：电池超标引延误，乘客互动成趣景

05-05

AI当"交易员"自主砍价：强弱模型"价格战"下人类公平感竟未动摇

05-05

中国移动2026移动云大会将至 AI-eSIM携“智能大脑”与“安全底座”亮相

05-05

AI芯片新势力Cerebras启动IPO路演，拟募资超32亿美元加速晶圆级芯片布局

05-05

中国移动2026移动云大会将至 AI-eSIM产品赋能终端安全与智能升级

05-05

点击查看更多 +

全站最新

长安启源E07：SUV与皮卡自由切换开启新能源个性化出行新体验

长安启源Q05携OTA升级来袭，车家互联+激光雷达，8万级市场新标杆

港股异动丨汇丰控股跳水跌超4%，首季税前盈利逊预期

港股异动丨长和拉升涨超4%，出售VodafoneThree 49%持股料带来43亿英镑现金

台股收盘再创历史新高，年内累涨40.76%位居全球第二

特朗普：我在过去8个月让美国赚了450亿美元

热门内容

本栏最新

刷题600道不如AI编程实战一次：技术人如何拥抱真实需求时代？

别克至境北京车展“秀肌肉”：三款新车齐发定义未来出行新范式

特斯拉Model X停产落幕，最后一辆满载员工签名将成典藏纪念

别克至境携三大新能源车型与移动空间智慧体开启智电时代出行新境

新款奥迪Q4 e-tron系列官图发布，内饰科技升级，双向充电成亮点

别克新款世纪上市，2.0T轻混+独立悬架，豪华配置升级，尽显大气风范

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.