AIPress.com.cn报道
4月7日消息,阿里巴巴通义实验室智能计算团队近日发布论文《Future-KL Influenced Policy Optimization》(FIPO),提出一种针对大模型推理强化学习的新算法,通过识别并优化少量关键 Token 的训练信号,实现对推理能力的有效提升。
研究团队在对强化学习(RL)微调前后的模型行为进行分析时发现,强化学习对模型输出的影响呈现出高度稀疏的特征。在逐 Token 对比模型输出分布后,研究人员发现超过 98% 的 Token 在训练前后几乎没有变化,仅在极少数位置出现明显差异。
进一步分析显示,这些关键位置往往对应推理链中的重要逻辑决策点。研究人员将这种现象称为“稀疏但关键”(sparse but critical):强化学习并非重新构建模型能力,而是通过调整少量关键 Token,引导模型沿着更稳定的推理路径运行。
为了识别这些关键 Token,团队发现传统评估指标如熵(Entropy)或 KL 散度主要反映分布变化的幅度,却难以判断变化方向。为此,研究人员引入符号对数概率差(Δlog p)作为新的分析指标,用于捕捉强化学习对特定 Token 的“鼓励”或“抑制”方向。
在实验中,研究人员通过替换由 Δlog p 识别出的关键 Token,发现只需调整极少比例的 Token 即可恢复强化学习后的推理性能,其效果明显优于基于 KL 散度或熵筛选的方式。
在进一步研究长推理链行为时,团队还观察到一种被称为“Oops Moment”的现象:模型在推理过程中已经得到正确结果,却在后续步骤中重新推导并最终给出错误答案。统计结果显示,在相关实验数据中,所谓的“顿悟时刻”(Aha Moment)出现概率约为 1%,而“自我误导”(Oops Moment)的发生率约为 3%。
研究人员认为,这一问题源于传统强化学习方法在奖励分配上的粗粒度设计。以 GRPO 等算法为代表的策略通常在最终答案正确时向整条推理链均匀分配奖励,使模型难以识别具体哪一步推理真正起到了关键作用。
为解决这一问题,研究团队提出 FIPO(Future-KL Influenced Policy Optimization)算法,引入 Future-KL 指标,用于衡量单个 Token 对后续推理轨迹的影响。具体而言,算法通过计算当前 Token 对后续输出概率分布产生的累积偏移,从而估计其“未来影响力”。
根据这一指标,算法在训练过程中对 Token 进行差异化处理:当 Token 对后续推理产生正向影响时提高其权重;当 Token 对后续推理产生负向影响时则进行抑制,从而实现 Token 级别的信用分配。
为保证训练稳定性,研究团队还设计了三种稳定机制,包括极端值过滤、软衰减窗口以及影响力权重裁剪,以避免由于概率分布波动带来的梯度不稳定问题。
实验在 Qwen2.5-32B-Base 模型上进行,并采用纯强化学习设置,即未使用长链思维(Long-CoT)数据进行预训练。结果显示,在数学推理任务中,FIPO 能够显著提升模型的推理深度和性能。
在推理长度方面,传统算法生成的推理链长度约为 4000 Token,而 FIPO 将平均推理长度提升至 10000 Token 以上。在 AIME 2024 数学测试基准上,模型准确率从基线算法 DAPO 的 50.0% 提升至 58.0%。
研究团队表示,这一结果表明,通过细粒度的 Token 级信用分配机制,可以在不依赖额外长推理数据的情况下,持续扩展模型推理能力。相关代码与模型已经开源。








