滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

AI推理模型“过度思考”难题破解：PUMA框架让思考更高效精准

时间：2026-05-26 00:42:37 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当你在向智能助手提问时，是否遇到过这样的场景：它滔滔不绝地“思考”了许久，给出的答案却与早期结论相差无几？这种看似“勤奋”的反复推敲，实则可能隐藏着计算资源的浪费与用户体验的损耗。近期，一项由多国科研团队联合完成的研究，针对大型推理模型在复杂问题处理中的“过度思考”现象，提出了一套创新的自适应早停机制，为提升AI推理效率开辟了新路径。

研究团队聚焦于当前主流推理模型（如DeepSeek-R1、OpenAI o1等）的共性痛点：在生成最终答案前，模型会通过长篇大论的“思考轨迹”提升答案准确性，但其中近半内容（41%-52%）是在正确答案已出现后产生的冗余验证。这种“画蛇添足”的行为不仅消耗大量算力，更可能导致模型在反复推敲中自我否定，最终输出错误结论。如何让模型在“想清楚”时及时停止，成为优化推理效率的关键。

传统早停方案多依赖“答案稳定性”或“中间结果一致性”等单一指标，但实际效果差强人意。例如，基于信心值的方案易因模型早期“虚假自信”而误判，导致44%的停止信号出现在错误时机，其中42%的错误触发甚至打断了模型的自我纠错进程；而“三步一致即停止”的规则，在面对错误答案的循环验证时，错误触发率高达64%，在数学竞赛题等复杂场景中更飙升至83%。这些方案如同“只看锅是否冒泡就判断食物熟度”的厨师，忽视了推理过程的动态复杂性。

研究团队的创新在于将判断依据从“答案是否稳定”转向“思考是否产生新内容”。他们引入“语义熵”概念，通过比较相邻推理步骤的语义相似度，识别冗余内容：若当前步骤与前一步的语义向量余弦相似度超过0.35，即判定为无效重复。为此，团队基于阿里云Qwen3-Embedding-0.6B模型训练了轻量级“冗余探测器”，在70万条标注数据的支持下，其对冗余步骤的识别准确率达91.26%，对有效推进的识别准确率更高达93.58%。

为避免“冗余即停止”的片面性，研究团队设计了“双重验证机制”——PUMA框架。当冗余探测器首次发出信号时，系统进入“验证窗口”，通过诱导模型生成试探性答案并评估置信度，只有当两次答案一致且置信度均超阈值时，才会真正停止推理。针对长期冗余循环的极端情况，PUMA还配备了“循环破解器”：若推理步骤超50步且冗余探测器多次触发，系统将强制输出置信度最高的答案。这种“先感知冗余，再确认答案”的分层决策，有效平衡了效率与准确性。

实验结果显示，PUMA在五款不同架构的推理模型（参数规模从7B到30B）和五个数据集（涵盖高中数学竞赛到研究生科学问答）上表现优异：平均削减26.2%的生成token，答案准确率不降反升，部分场景下因避免“过度思考”导致的错误，准确率甚至略高于完整推理。与现有方案相比，PUMA在效率与质量的平衡上优势显著：例如，某基于置信度的方案虽能削减80%以上token，但准确率暴跌20-40个百分点；而PUMA在7B模型上实现1.40倍速度提升的同时，推理链质量评分（完整性、连贯性、简洁性、论证质量）达54.3分，较完整推理的44.1分提升超10分。

PUMA的普适性亦通过跨任务测试得到验证。在代码生成任务中，调整冗余阈值后，PUMA削减18%-19%的token，答案通过率下降不超过1.5个百分点；在视觉语言推理任务中，未经重新训练的冗余探测器直接迁移使用，仍实现23.8%-33.6%的token削减，准确率波动小于1.5%。这表明“语义冗余”作为停止信号，在不同模态任务中均具有有效性。

研究团队进一步探索了将PUMA的停止逻辑“烧入”模型的可能性。通过监督微调、偏好学习和强化学习三种范式，用PUMA标记的停止位置训练模型，使其学会自主判断推理终点。实验表明，强化学习版本效果最佳：模型在保持67.0%平均准确率的同时，削减34.9%的token，甚至超越推理时使用PUMA外挂模块的效果。这一发现为降低推理成本提供了新思路——未来，模型或许无需依赖外部工具，即可实现高效推理。

该研究已以预印本形式发布于arXiv平台（编号2605.17672），代码同步开源。其核心价值在于，通过精准感知推理过程的“自然收敛点”，而非简单限制思考长度或依赖最终答案，为大型模型的高效推理提供了可复制的解决方案。随着AI在科学计算、智能助手等领域的广泛应用，此类技术对减少资源消耗、提升用户体验的意义将愈发凸显。

更多>同类资讯

Rokid AR眼镜新动态：官宣搭载恒玄6nm工艺BES2810芯片性能再升级

IT之家 7 月 1 日消息，恒玄科技官方今日宣布，Rokid AR 眼镜将搭载恒玄 BES2810 芯片。采用 6nm 工艺，超低功耗集成NPU、HiFi 5s，算力和效率大幅提升全新语音交互，灵…

07-02

跑分太高过于离谱？安兔兔硬刚某品牌：拒绝收录

07-02

数百万辆特斯拉HW3迎来FSD V14，中国车型是否同步升级？官方客服：目前仅适配AI4硬件部分车型

07-02

97年的孙天祥加入百度，任基础模型研发部负责人

07-02

短剧迎院线大考！《好一个乖乖女》立项电影

07-02

网易CC直播将于8月31日停止运营

07-02

小米人事调整：中国区总裁王晓雁不再兼任销售运营一部总经理，陈幕楠接任

07-02

独家|小米人事调整：中国区总裁王晓雁不再兼任销售运营一部总经理，陈幕楠接任

07-02

冲刺港股IPO前夜小红书突遭前高管实名举报

07-02

迎战“AI制书洪流”:Libby拟推AI内容过滤器，重塑数字阅读边界

07-02

特斯拉HW3老车主迎曙光：FSD V14 Lite推送，中国车型升级待定

07-02

97年大模型技术专家孙天祥履新百度，引领基础模型研发新征程

07-02

爆款短剧《好一个乖乖女》立项电影，短剧IP能否在院线闯出一片天？

07-02

小米中国区人事变动：王晓雁卸任销售运营一部要职，陈幕楠张健等履新

07-02

小米首款智能存储设备众筹开启：原厂硬盘配置性价比高且操作便捷

若8TB与16TB版本同样搭载对应容量的原厂西数红盘，其硬盘单独采购成本亦将超过整机众筹售价。日常使用场景覆盖广泛：手机照片与各类文件支持一键备份；系统能自动识别人脸及行程信息，实现智能归类；影视资源入…

07-02

点击查看更多 +

全站最新

MG07设计风波背后：品牌话语权之困与车圈舆论生态的双重审视

科技赋能出行新选择，小米克系列智能平衡车，带你畅享多元骑行乐趣

6月新势力销量揭晓：零跑破9万领跑鸿蒙理想小米各展风采

中国L3自动驾驶新规落地：安全底线划定，商业化黎明前的“紧箍咒”

邬贺铨：智能体融入工业互联网，发展脉络、机遇挑战与应对全解析

半程销量领跑，上汽自主新能源海外三线并进开启新篇章

热门内容

本栏最新

MG07设计风波背后：品牌话语权之困与车圈舆论生态的双重审视

科技赋能出行新选择，小米克系列智能平衡车，带你畅享多元骑行乐趣

6月新势力销量揭晓：零跑破9万领跑鸿蒙理想小米各展风采

中国L3自动驾驶新规落地：安全底线划定，商业化黎明前的“紧箍咒”

2026上海电科臻和：第一季度快乐会议精彩纷呈共赴下一季拼搏之约

石头科技6月30日股价上扬1.52% 主力资金净流入超千万回购分红同步推进

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.