ITBear旗下自媒体矩阵:

阿里通义实验室FIPO算法突破大模型瓶颈 复杂推理能力与准确率双提升

   时间:2026-04-08 00:01:34 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

阿里通义实验室的科研团队在人工智能领域取得重要进展,推出名为FIPO(Future-KL Influenced Policy Optimization)的新型算法。该算法通过创新机制解决了大模型推理过程中的关键技术难题,特别是在复杂数学推理任务中展现出显著优势。研究团队发现,传统强化学习方法在处理长推理链时,难以有效区分不同Token对最终结果的贡献度,导致模型推理能力受限。

FIPO算法的核心突破在于引入Future-KL机制,该机制通过量化每个Token对后续推理路径的影响程度,构建了精准的奖励模型。与传统方法不同,这种设计能够动态识别对推理过程具有关键作用的Token,有效解决了纯强化学习训练中常见的"推理长度停滞"问题。实验数据显示,在320亿参数规模的纯强化学习设置下,FIPO的表现优于o1-mini和DeepSeek-Zero-MATH等同规模模型。

研究团队在分析强化学习训练过程时发现,超过80%的Token在训练前后保持稳定,这表明传统评估指标如熵和KL散度难以捕捉关键优化点。为此,科研人员创新性地提出符号对数概率差(Δlog p)作为新的观察维度,该指标能够准确反映Token优化的方向性变化。通过这种量化方式,算法可以更高效地聚焦于真正影响推理质量的Token。

在基于Qwen2.5-32B-Base模型的实证测试中,FIPO算法展现出突破性成果。模型平均推理长度突破10,000Token大关,较传统方法提升数个数量级。更值得注意的是,该算法在保持推理效率的同时,显著提升了复杂数学问题的解决准确率。这项成果为提升大模型推理能力提供了新的技术路径,特别是在需要长程推理的科研和工程领域具有重要应用价值。

科研人员指出,FIPO算法的创新性体现在三个维度:精准的关键Token识别机制、动态的未来影响评估体系,以及优化的强化学习训练策略。这些技术突破共同作用,使模型能够处理更复杂的推理任务,同时保持计算效率。目前,研究团队正在探索该算法在代码生成、逻辑推理等更多领域的应用可能性。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version