阿里通义实验室的科研团队在人工智能领域取得重要进展,推出名为FIPO(Future-KL Influenced Policy Optimization)的新型算法。该算法通过创新机制解决了大模型推理过程中的关键技术难题,特别是在复杂数学推理任务中展现出显著优势。研究团队发现,传统强化学习方法在处理长推理链时,难以有效区分不同Token对最终结果的贡献度,导致模型推理能力受限。
FIPO算法的核心突破在于引入Future-KL机制,该机制通过量化每个Token对后续推理路径的影响程度,构建了精准的奖励模型。与传统方法不同,这种设计能够动态识别对推理过程具有关键作用的Token,有效解决了纯强化学习训练中常见的"推理长度停滞"问题。实验数据显示,在320亿参数规模的纯强化学习设置下,FIPO的表现优于o1-mini和DeepSeek-Zero-MATH等同规模模型。
研究团队在分析强化学习训练过程时发现,超过80%的Token在训练前后保持稳定,这表明传统评估指标如熵和KL散度难以捕捉关键优化点。为此,科研人员创新性地提出符号对数概率差(Δlog p)作为新的观察维度,该指标能够准确反映Token优化的方向性变化。通过这种量化方式,算法可以更高效地聚焦于真正影响推理质量的Token。
在基于Qwen2.5-32B-Base模型的实证测试中,FIPO算法展现出突破性成果。模型平均推理长度突破10,000Token大关,较传统方法提升数个数量级。更值得注意的是,该算法在保持推理效率的同时,显著提升了复杂数学问题的解决准确率。这项成果为提升大模型推理能力提供了新的技术路径,特别是在需要长程推理的科研和工程领域具有重要应用价值。
科研人员指出,FIPO算法的创新性体现在三个维度:精准的关键Token识别机制、动态的未来影响评估体系,以及优化的强化学习训练策略。这些技术突破共同作用,使模型能够处理更复杂的推理任务,同时保持计算效率。目前,研究团队正在探索该算法在代码生成、逻辑推理等更多领域的应用可能性。











