ITBear旗下自媒体矩阵：

滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

通义实验室新算法FIPO：精准优化关键Token 提升大模型推理能力

时间：2026-04-08 01:07:54 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

阿里巴巴通义实验室智能计算团队在强化学习领域取得新突破，其研发的FIPO算法通过精准调控关键Token训练信号，成功提升大模型推理能力。该研究成果已发表于学术论文《Future-KL Influenced Policy Optimization》，相关代码与模型同步开源。

研究团队在分析强化学习微调模型时发现，训练前后超过98%的Token输出分布几乎保持不变，仅有极少数位置发生显著变化。这些关键位置集中出现在推理链的逻辑决策节点，形成"稀疏但关键"的独特现象。研究人员指出，强化学习并非全面重构模型能力，而是通过调整少量关键Token引导模型形成更稳定的推理路径。

传统评估指标如熵值和KL散度仅能反映分布变化幅度，却无法判断变化方向。为此，团队创新性地引入符号对数概率差（Δlog p）作为分析工具，该指标可精准捕捉强化学习对特定Token的"鼓励"或"抑制"作用。实验表明，通过替换Δlog p识别的关键Token，仅需调整极少量Token即可恢复模型推理性能，效果显著优于传统筛选方法。

在长推理链研究中，团队观察到模型存在"自我误导"现象：约3%的推理过程中，模型在得出正确结论后仍继续推导，最终导致错误答案。相比之下，真正产生突破性理解的"顿悟时刻"仅占1%。这种现象源于传统强化学习算法在奖励分配时存在缺陷，GRPO等典型算法会将最终正确答案的奖励均匀分配至整个推理链，使模型难以定位关键推理步骤。

针对上述问题，FIPO算法引入Future-KL指标量化单个Token对后续推理轨迹的影响。该指标通过计算当前Token对后续输出概率分布的累积偏移，评估其"未来影响力"。训练过程中，算法对产生正向影响的Token提高权重，对产生负向影响的Token进行抑制，实现Token级别的精准信用分配。为确保训练稳定性，团队还设计了极端值过滤、软衰减窗口和影响力权重裁剪三重保障机制。

在Qwen2.5-32B-Base模型的纯强化学习实验中，FIPO算法展现出显著优势。传统算法生成的推理链平均长度约4000 Token，而FIPO将这一数值提升至10000 Token以上。在AIME 2024数学测试基准上，模型准确率从基线算法DAPO的50.0%提升至58.0%。研究证实，通过细粒度的Token级信用分配机制，模型可在不依赖额外长推理数据的情况下持续扩展推理能力。

04-08

盒马重构茶叶供应链：拆解非标品，让定价权回归品质与效率

但随着信息透明度的提升，这一价格体系正在松动瓦解：一方面，消费者获取信息的渠道不断增加，传统的溢价空间被持续压缩；另一方面，以盒马为代表的渠道型平台，正通过自有品牌与供应链能力，直接参与商品定义与定价过程，…

04-08

智谱转型“中国Anthropic”：定价权、规模效应与转型速度成关键挑战

在价格战仍是行业主旋律的背景下，这是国产大模型的第一张涨价牌，而且涨完后用户不跑，这说明至少在一部分场景里，智谱的模型已经有了定价权。过去一年，智谱已与多个中东国家和东南亚国家展开合作，向当地输出模型能力，…

04-08

苹果阔折叠或命名iPhone Ultra 国内厂商新折叠机也欲跟进对标

IT之家 4 月 7 日消息，博主 @数码闲聊站今日发文称，传闻苹果阔折叠命名是 iPhoneUltra。他透露，国内厂商的阔折叠手机也在考虑跟进，新折叠暂命名 Ultra，屏幕形态、芯片硬件、价格全面对…

04-08

小米SU7拆车后7小时重装完成！沉浸式装车视频发布仅用于展示测试

IT之家 4 月 7 日消息，本月早些时候（4 月 2 日），小米创办人、董事长兼 CEO 雷军举行了新一代 SU7 拆车直播。在此次直播活动中，一辆新一代小米 SU7 被从整车拆到了零部件级。雷军也在直播…

04-08

REDMI K90 Max“内部揭秘”：风冷散热亮眼，本月登场引期待

IT之家 4 月 7 日消息，小米 REDMI 产品经理胡馨心今日发布视频，“内部揭秘”REDMI K90Max手机部分信息。此次“内部揭秘”并未公布新机的外观，但却展示了其内部结构。据介绍，REDMI …

04-08

魏思琪微博曝光新机！REDMI K90至尊版携风冷登场性能续航双升级

今日，小米中国区市场部总经理魏思琪用小米新机发布微博，不出意外，这正是即将登场的REDMIK90至尊版，这将是小米首款配备主动散热风扇的机型。整体来看，REDMI K90至尊版在散热形态、性能释放与续航…

04-08

Anthropic年化收入破300亿美元与博通谷歌合作部署约3.5吉瓦AI算力

Anthropic首席财务官指出，与博通和谷歌的合作将帮助公司建立足以支撑客户群惊人增长所需的算力。这一合作将于2027年启动。此外，博通在文件中表示：“Anthropic对上述扩展AI算力的使用取决于其持续…

04-08

苹果iPhone Fold试生产开启发布或晚于iPhone 18 Pro 9月发布存变数

【环球网科技综合报道】4月7日消息，据9to5mac报道，苹果合作伙伴富士康已开启iPhoneFold的试生产工作。试生产作为量产前的重要环节，旨在全面检测生产流程与产品质量，为后续大规模量产做准备。近…

04-08

新一代小米SU7拆车后7小时重装完成，装车视频发布用于展示和测试

04-08

Omdia预测：2030年社交视频广告助力全球视讯收入突破万亿美元大关

来源：环球网【环球网科技综合报道】4月7日消息，据Omdia媒体和娱乐部门负责人Maria RuaAguete发布的最新数据显示，预计到2030年，全球传统电视和在线视频收入将超过1万亿美元。 Omdi…

04-08

苹果折叠屏新进展：iPhone Fold试产中书本式设计或秋季亮相

快科技4月7日消息，日前，有媒体报道称，苹果首款折叠屏手机iPhone Fold正在富士康试产。据证券时报报道，苹果产业链人士对此表示，苹果首款折叠屏手机项目方案早已确定，目前该项目正在正常推进中。试产是…

04-08

Google推出AI语音转写新应用AI Edge Eloquent，离线转写+智能润色成亮点

在应用中，用户可以看到实时转录结果，点击暂停后，应用会自动过滤掉"嗯"、"啊"等语气词，并对文本进行润色处理。Google AI Edge Eloquent可以从用户的Gmail账户导入特定的关键词、姓名和…

04-08

荣耀WIN游戏本4月23日登场，顶配250W性能释放补齐电竞拼图

作为荣耀WIN生态系列的第二款核心产品，该游戏本定位高端性能旗舰赛道。在散热模组设计上，该版本采用了较为激进的风扇配置，以确保高负载场景下的运行稳定性。荣耀此时携WIN 游戏本入局，补齐了其 PC 全场景…

04-08

99元小米蓝牙遥控器2 Pro来袭！功能升级，送父母长辈的贴心之选

除此之外，小米蓝牙遥控器 2Pro还内置了NFC一触投屏功能，这也是该遥控器很适合老年用户的主要原因。如果该产品加入了“查找”功能，通过手机内置的APP让小米蓝牙遥控器 2 Pro发出声音，从而让找遥控器…

04-08

点击查看更多 +

全站最新

上汽通用五菱华境S开启预售华为科技加持混动四驱性能强劲

黄晓明带儿子骑行引热议，未注意交规公开致歉，育儿路上敲响警钟

上汽大众途观L Pro再添新成员！300TSI智悦版入门款上市 21.38万起售

蔚来ES9官图来袭！4月9日亮相预售，旗舰科技与超长续航齐登场

上汽奥迪E7X破佰骏山地赛车场SUV圈速纪录 4月北京车展将首秀

宝马旗舰纯电iX7谍照来袭！2027年上市，百万级SUV市场谁主沉浮？

热门内容

本栏最新

黄晓明带儿子骑行引热议，未注意交规公开致歉，育儿路上敲响警钟

上汽大众途观L Pro再添新成员！300TSI智悦版入门款上市 21.38万起售

出版业新媒体生态重构：出版集团如何布局多平台实现协同发展？

宜昌AI灯塔计划教育钉峰会启幕政企携手共筑智慧教育新未来

二代刀片电池与闪充技术登场，比亚迪能否凭此开启新能源新征程？

小米YU7梅森·马吉拉涂装版登场：跨界融合，开启汽车高端定制新范式

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.