滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

字节跳动北航联手出新招：SAGE算法让大模型推理“瘦身”又增效

时间：2026-02-27 15:09:26 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

大语言模型的发展速度远超预期，尤其在复杂逻辑推理任务中展现出令人惊叹的能力。然而，随着模型能力不断提升，一个新问题逐渐浮现——过度思考。这种现象表现为模型在得出正确答案后仍持续生成大量冗余推理步骤，既浪费算力又拖慢响应速度。

典型案例中，美国研究者曾用"Strawberry中有几个r"测试AI智商，结果多个主流模型集体"翻车"。更有趣的是，当问题升级为"50米外洗车该开车还是步行"时，部分模型陷入复杂计算后仍给出错误答案。这些案例暴露出当前模型在推理过程中存在的效率缺陷：为追求准确率而过度消耗资源。

字节跳动与北京航空航天大学的研究团队在《Does Your Reasoning Model Implicitly Know When to Stop Thinking?》论文中，通过系统分析发现模型过度思考的根源在于采样策略。传统"Pass@1"评估方式下，模型即使得出正确答案也会继续验证，导致大量无效token消耗。数据显示，在AIME 2025基准测试中，DeepSeek-R1的回复长度是Claude 3.7 Sonnet的5倍，准确率却相差无几。

研究团队提出"首次正确步骤比率（RFCS）"指标，量化分析显示超半数样本存在冗余推理。以计算20260226平方为例，模型在得出正确答案后仍进行位数检查、进位验证等12个冗余步骤。这种"思维链长度与准确率非正相关"的现象，在轻量级模型中尤为明显——1.5B参数模型需生成近千token才能结束思考，其中45%属于冗余内容。

突破性发现来自"Pass@K"采样实验：当允许模型生成多条思维链时，其路径置信度指标能准确识别最优解。研究显示，模型在探索出简洁正确路径时，生成结束标识的概率会突然跃升至首位。这表明模型具备全局推理能力，只是被现有采样策略限制了发挥。

基于上述发现，研究团队开发出SAGE（Self-Aware Guided Efficient Reasoning）算法。该算法通过步骤级探索机制，在每个推理节点生成多个候选分支，一旦出现以结束标识结尾的分支立即终止思考。实验数据显示，在MATH-500测试中，7B参数模型使用SAGE后回复长度减少33%，准确率反而提升1个百分点，token效率显著优于同类算法。

为将技术落地，研究团队将SAGE与GRPO强化学习框架结合，创造出SAGE-RL训练机制。通过混合采样策略，让模型在训练过程中逐步学习高效推理模式。在AIME 2025等6个高难度数学基准测试中，SAGE-RL在保持准确率的同时，将平均推理步骤压缩41%，首次正确步骤比率提升27%。

这项技术对AI商业化具有重要价值。当前API计费模式下，头部企业正寻求降低冗余token消耗。以DeepSeek为例，其推理成本优势不仅来自算法创新，更得益于对推理效率的极致优化。掌握高效推理技术的厂商，能用更少算力实现同等甚至更高性能，这在模型智能提升边际收益递减的当下，为价格战提供了关键筹码。

随着AI智能体进入实际工作流，响应速度已成为产品生死线。研究团队指出，未来模型竞争将聚焦于"精准停止"能力——最高级的智能不在于长篇大论，而在于恰到好处的终止。这种转变或将重新定义大语言模型的评价标准，推动行业从"规模竞赛"转向"效率革命"。

更多>同类资讯

千寻智能解浚源离职：从字节AI专家到具身智能，离职背后引创业猜想

04-08

苹果阔折叠新机或命名iPhone Ultra 国内厂商跟进对标折叠屏赛道再升温

04-08

英特尔入局马斯克TeraFab项目助力打造超高性能芯片超级工厂

04-08

特斯拉大将加盟小米汽车，销售生产双助力，能否助其达成销量目标？

04-08

小米罗福莉评Anthropic封禁OpenClaw：低价Token非出路，生态优化是关键

04-08

估值飙至200亿！灵心巧手：机器人赛道“卖铲人”如何跑出加速度？

04-08

2026年一季度五大品牌畅销机型揭晓苹果高端制胜安卓中低端为主

今天给大家汇总的就是2026年第一季度，小米、vivo、OPPO、荣耀、苹果这五个品牌最畅销机型Top10。排名四至十位的分别是：vivoY500i、iQOO Neo11、vivo X300、vivo …

04-08

苹果阔折叠或命名iPhone Ultra，国内厂商新折叠机也欲跟进 Ultra 命名潮？

IT之家 4 月 7 日消息，博主 @数码闲聊站今日发文称，传闻苹果阔折叠命名是 iPhoneUltra。他透露，国内厂商的阔折叠手机也在考虑跟进，新折叠暂命名 Ultra，屏幕形态、芯片硬件、价格全面对…

04-08

联想ThinkPad 4月22日将办发布活动 2026新品与天禧AI生态齐亮相

IT之家 4 月 7 日消息，联想 ThinkPad 官方社交媒体平台账户今日确认，ThinkPad 2026 新品暨天禧 AI生态发布活动将于 4 月 22 日举行，宣传口号为“我 · 即我们”。联想 …

04-08

小米REDMI K90 Max“内部揭秘”：风冷散热亮眼，本月将登场亮相

IT之家 4 月 7 日消息，小米 REDMI 产品经理胡馨心今日发布视频，“内部揭秘”REDMI K90Max手机部分信息。此次“内部揭秘”并未公布新机的外观，但却展示了其内部结构。据介绍，REDMI …

04-08

科创人工智能ETF易方达（588730）涨0.88%，规模与流动性表现如何？

4月7日，易方达上证科创板人工智能ETF（588730）收盘涨0.88%，成交额8338.59万元。科创人工智能ETF易方达（588730）成立于2025年1月16日，基金全称为易方达上证科创板人工智能交…

04-08

科创人工智能ETF南方（589230）涨0.88% 规模达4.43亿重仓股曝光

4月7日，南方上证科创板人工智能ETF（589230）收盘涨0.88%，成交额2136.48万元。科创人工智能ETF南方（589230）成立于2026年1月16日，基金全称为南方上证科创板人工智能交易型开…

04-08

科创AIETF博时（588790）4月7日涨0.95% 规模缩水但流动性活跃

4月7日，博时科创板人工智能ETF（588790）收盘涨0.95%，成交额1.84亿元。科创AIETF博时（588790）成立于2024年12月31日，基金全称为博时上证科创板人工智能交易型开放式指数证券…

04-08

机器人ETF易方达（159530）4月7日微跌，规模与流动性数据全解析

4月7日，易方达国证机器人产业ETF（159530）收盘跌0.30%，成交额2.61亿元。机器人ETF易方达（159530）成立于2024年1月10日，基金全称为易方达国证机器人产业交易型开放式指数证券投…

04-08

家电ETF富国（561120）微跌0.08% 规模份额双降牛志冬管理收益亮眼

4月7日，富国中证全指家用电器ETF（561120）收盘跌0.08%，成交额1037.56万元。家电ETF富国（561120）成立于2022年1月25日，基金全称为富国中证全指家用电器交易型开放式指数证券…

04-08

点击查看更多 +

全站最新

央企华为强强联手，深蓝S07激光版以科技重塑20万级SUV新体验

石头科技4月7日收盘微跌主力资金净流出超两千万近五日资金流向引关注

国产“芯”突破！DF30高性能车规级MCU芯片量产上车进程加速

最后一刻！特朗普同意停火两周，伊朗接受提议！原油跳水、金银猛拉

宝马旗舰SUV纯电转型新动作！iX7谍照流出，2027年上市或超10万美元

伊朗驻巴基斯坦大使暗示谈判有进展

热门内容

本栏最新

石头科技4月7日收盘微跌主力资金净流出超两千万近五日资金流向引关注

马云预警AI时代：3-5年冲击将至，企业如何未雨绸缪破局未来？

千寻智能再获10亿融资：30天累计30亿，数据与商业化双轮驱动加速跑

字节跳动持续加码北京地产：科研用地与医疗用地双布局拓展版图

小米汽车欧洲布局再提速：吸纳特斯拉人才，2027出海或迎新突破

2026年车载激光雷达“千线”争霸：华为禾赛速腾激战，谁主沉浮？

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.