阿里巴巴通义实验室智能计算团队在强化学习领域取得新突破,其研发的FIPO算法通过精准调控关键Token训练信号,成功提升大模型推理能力。该研究成果已发表于学术论文《Future-KL Influenced Policy Optimization》,相关代码与模型同步开源。
研究团队在分析强化学习微调模型时发现,训练前后超过98%的Token输出分布几乎保持不变,仅有极少数位置发生显著变化。这些关键位置集中出现在推理链的逻辑决策节点,形成"稀疏但关键"的独特现象。研究人员指出,强化学习并非全面重构模型能力,而是通过调整少量关键Token引导模型形成更稳定的推理路径。
传统评估指标如熵值和KL散度仅能反映分布变化幅度,却无法判断变化方向。为此,团队创新性地引入符号对数概率差(Δlog p)作为分析工具,该指标可精准捕捉强化学习对特定Token的"鼓励"或"抑制"作用。实验表明,通过替换Δlog p识别的关键Token,仅需调整极少量Token即可恢复模型推理性能,效果显著优于传统筛选方法。
在长推理链研究中,团队观察到模型存在"自我误导"现象:约3%的推理过程中,模型在得出正确结论后仍继续推导,最终导致错误答案。相比之下,真正产生突破性理解的"顿悟时刻"仅占1%。这种现象源于传统强化学习算法在奖励分配时存在缺陷,GRPO等典型算法会将最终正确答案的奖励均匀分配至整个推理链,使模型难以定位关键推理步骤。
针对上述问题,FIPO算法引入Future-KL指标量化单个Token对后续推理轨迹的影响。该指标通过计算当前Token对后续输出概率分布的累积偏移,评估其"未来影响力"。训练过程中,算法对产生正向影响的Token提高权重,对产生负向影响的Token进行抑制,实现Token级别的精准信用分配。为确保训练稳定性,团队还设计了极端值过滤、软衰减窗口和影响力权重裁剪三重保障机制。
在Qwen2.5-32B-Base模型的纯强化学习实验中,FIPO算法展现出显著优势。传统算法生成的推理链平均长度约4000 Token,而FIPO将这一数值提升至10000 Token以上。在AIME 2024数学测试基准上,模型准确率从基线算法DAPO的50.0%提升至58.0%。研究证实,通过细粒度的Token级信用分配机制,模型可在不依赖额外长推理数据的情况下持续扩展推理能力。











