通义实验室发布新算法：改进大模型推理训练机制

时间：2026-04-08 03:55:53 来源：鞭牛士编辑：快讯 IP：北京 发表评论无障碍通道

AIPress.com.cn报道

4月7日消息，阿里巴巴通义实验室智能计算团队近日发布论文《Future-KL Influenced Policy Optimization》（FIPO），提出一种针对大模型推理强化学习的新算法，通过识别并优化少量关键 Token 的训练信号，实现对推理能力的有效提升。

研究团队在对强化学习（RL）微调前后的模型行为进行分析时发现，强化学习对模型输出的影响呈现出高度稀疏的特征。在逐 Token 对比模型输出分布后，研究人员发现超过 98% 的 Token 在训练前后几乎没有变化，仅在极少数位置出现明显差异。

进一步分析显示，这些关键位置往往对应推理链中的重要逻辑决策点。研究人员将这种现象称为“稀疏但关键”（sparse but critical）：强化学习并非重新构建模型能力，而是通过调整少量关键 Token，引导模型沿着更稳定的推理路径运行。

为了识别这些关键 Token，团队发现传统评估指标如熵（Entropy）或 KL 散度主要反映分布变化的幅度，却难以判断变化方向。为此，研究人员引入符号对数概率差（Δlog p）作为新的分析指标，用于捕捉强化学习对特定 Token 的“鼓励”或“抑制”方向。

在实验中，研究人员通过替换由 Δlog p 识别出的关键 Token，发现只需调整极少比例的 Token 即可恢复强化学习后的推理性能，其效果明显优于基于 KL 散度或熵筛选的方式。

在进一步研究长推理链行为时，团队还观察到一种被称为“Oops Moment”的现象：模型在推理过程中已经得到正确结果，却在后续步骤中重新推导并最终给出错误答案。统计结果显示，在相关实验数据中，所谓的“顿悟时刻”（Aha Moment）出现概率约为 1%，而“自我误导”（Oops Moment）的发生率约为 3%。

研究人员认为，这一问题源于传统强化学习方法在奖励分配上的粗粒度设计。以 GRPO 等算法为代表的策略通常在最终答案正确时向整条推理链均匀分配奖励，使模型难以识别具体哪一步推理真正起到了关键作用。

为解决这一问题，研究团队提出 FIPO（Future-KL Influenced Policy Optimization）算法，引入 Future-KL 指标，用于衡量单个 Token 对后续推理轨迹的影响。具体而言，算法通过计算当前 Token 对后续输出概率分布产生的累积偏移，从而估计其“未来影响力”。

根据这一指标，算法在训练过程中对 Token 进行差异化处理：当 Token 对后续推理产生正向影响时提高其权重；当 Token 对后续推理产生负向影响时则进行抑制，从而实现 Token 级别的信用分配。

为保证训练稳定性，研究团队还设计了三种稳定机制，包括极端值过滤、软衰减窗口以及影响力权重裁剪，以避免由于概率分布波动带来的梯度不稳定问题。

实验在 Qwen2.5-32B-Base 模型上进行，并采用纯强化学习设置，即未使用长链思维（Long-CoT）数据进行预训练。结果显示，在数学推理任务中，FIPO 能够显著提升模型的推理深度和性能。

在推理长度方面，传统算法生成的推理链长度约为 4000 Token，而 FIPO 将平均推理长度提升至 10000 Token 以上。在 AIME 2024 数学测试基准上，模型准确率从基线算法 DAPO 的 50.0% 提升至 58.0%。

研究团队表示，这一结果表明，通过细粒度的 Token 级信用分配机制，可以在不依赖额外长推理数据的情况下，持续扩展模型推理能力。相关代码与模型已经开源。

5月26日，据天眼查知识产权信息显示，北京字跳网络技术有限公司近日申请注册多枚“AGENTWORLD”商标，国际分类涵盖教育娱乐、科学仪器等，当前商标状态均为等待实质审查。公开资料显示，今年4月，字节跳动…

有消息称，OPPO FindX系列曾通过AB测试的方式打磨屏幕等核心配置，在参数规格和实际体验之间寻找平衡，这种前置测试的模式也逐渐成为旗舰产品研发的常规流程。行业分析认为，当前旗舰手机的硬件参数竞争已经…

奇客数据恢复安卓版应用可让您直接将已删除的文件恢复到手机中；适用于 Windows 和 MacOS 电脑以及移动应用程序；用于手机管理、数据传输和系统修复的完整工具包。它拥有简洁易用的界面，只需三个简单步骤即…

近日，小米汽车因一项创新的推荐活动引发了广泛关注。小米创始人雷军在社交平台上透露，由于使用其专属推荐码的车主数量远超预期，他计划在本月底停止提供个人推荐码，并建议消费者转而使用其他老车主的推荐码参与活动。这一…

岚图追光S：剑指小米YU7和ModelY岚图汽车推出全新纯电轿跑SUV“追光S”，定位中大型运动SUV，预计年中上市，对标小米YU7和特斯拉ModelY长轴版。外观与尺寸追光S采用溜背造型、无框车门、半隐藏式…

2025年，新能源汽车市场迎来了两款备受瞩目的新车型——小米YU7系列和比亚迪方程豹豹5闪充版“赤沙红”。比亚迪豹5的产业链同样强大，湖南裕能为其提供锂离子电池正极材料，三花智控则负责热管理相关部件的配套，确…

近日，小米SU7在西班牙塞维利亚的街头引起了广泛关注，成为全球汽车行业的一大热点。更为强劲的Max版则采用双电机四驱架构，系统综合功率高达508千瓦（690马力），搭配101.7千瓦时的三元锂电池组，续航里程…

讯飞起点阅读器：学习助手 7英寸彩墨屏，支持电子书、有声书切换。 AI助手推荐个性化书单，适合学生及职场人士。讯飞X3Pro：团队协作利器灵动条设计，文档浏览速度提升40%。 X3Pro：协同办公，团队管理…

规模方面，截止5月22日，智能汽车ETF富国（515250）最新份额为4.76亿份，最新规模为5.45亿元。回顾2025年12月31日，智能汽车ETF富国（515250）份额为5.88亿份，规模为6.80亿元…

近日，上纬新材料科技股份有限公司完成工商变更登记，核心人事变动落定。原董事长蔡朝阳卸任法定代表人及董事长职务，田华接任法定代表人，智元机器人联合创始人、CTO彭志辉(网名“稚晖君”)正式出任公司董事长。此次人事调整早有铺垫。2025年11月25日，上纬新材召开202

5月22日，以“新质生产力特别公开课：中国智造与格力实践”为主题的特别课堂在清华大学举行，董明珠受邀出席，并围绕女性职场发展、个人成长以及企业责任等话题进行了分享。谈到女性在职场中的发展时，董明珠表示，女性无需因性别示弱，职场中核心是实力与原则。她鼓励

这一从算法到系统的推进方式，也构成了具脑磐石对具身智能2.0的理解：不是让机器人在演示中完成更多动作，而是让机器人真正具备接近人类大脑的认知能力——从少量经验中学习抽象规律，在复杂环境中持续感知和记忆，并在…

阿里达摩院玄铁团队近日宣布，其研发的玄铁9系列高性能处理器已成功完成对Android 16操作系统的适配工作，并正式向战略合作伙伴推出玄铁安卓平台。这一突破性进展标志着RISC-V架构在安卓生态系统中实现了从技术验证到规模化应用的跨越，为智能终端设备的创新发展开辟了

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.