滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

强化学习致AI工具调用崩溃？中科院自动化所给出修复新策略

时间：2026-07-01 00:19:07 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当人工智能系统在复杂任务中突然“失控”，输出毫无意义的乱码，这背后究竟隐藏着怎样的机制？中国科学院自动化研究所与国科大人工智能学院的研究团队，针对大型语言模型在多轮工具调用任务中出现的“强化学习崩溃”现象展开系统性研究，揭示了训练过程中格式结构混乱是导致性能骤降的关键原因，并提出创新性的修复方案。

现代语言模型虽能处理海量文本，却无法直接调用外部工具完成实时查询、订票等任务。研究人员通过设计标准化指令格式，使模型能向天气API、航班系统等工具发送请求并解析返回数据。这种多轮交互类似侦探破案——需持续收集线索、调整策略。然而，当团队尝试用强化学习优化这一过程时，模型表现却出现剧烈波动：部分场景下得分直接归零，甚至低于未训练的基准水平。

实验发现，崩溃并非源于模型丧失推理能力，而是强化学习过程中控制标记分配混乱所致。研究团队形象比喻：这如同训练厨师时，将“开始烹饪”与“结束服务”的指令信号混淆，导致其刚拿起锅铲就宣布“服务完成”。通过调整提问格式，崩溃模型仍能展现基础工具调用能力，证明其核心技能未丢失，只是被格式问题遮蔽。

为解决这一难题，研究团队提出五大监督信号干预方案。其中，“过程反思监督”（PRS）表现最为突出：先让模型自由探索生成轨迹，再由GPT-4o-mini分析失败案例，生成包含错误类型、根本原因及修正方法的详细反思报告。这些报告作为额外训练数据，帮助模型理解工具调用的逻辑结构，而非机械记忆固定格式。实验显示，采用PRS方案的Qwen2.5-1.5B模型平均得分达25.75分，较纯强化学习提升超25倍。

泛化能力测试进一步验证PRS的优势。在内容与格式均未见过的场景中，PRS方案仍能取得12分，而传统监督微调方案得分直接归零。研究团队指出，后者因过度依赖特定格式，导致模型在新场景中“认生”，而PRS培养的深层推理能力使其能跨越格式障碍，灵活应对变化。

学习率设置对训练效果的影响同样显著。实验表明，将学习率从10⁻⁶提升至10⁻⁵后，模型进步速度加快，强化学习阶段能有效纠正监督微调阶段的偏差。但在Qwen3-1.7B模型上，研究团队发现其特有的“思考前缀”机制与训练格式错位，导致性能崩溃。这一案例警示：多阶段训练中，任何细微的格式不一致都可能引发连锁反应。

该研究不仅为AI训练稳定性提供了理论解释，更开发出开源工具包Tool-RL-Box，包含基准测试平台与五种干预方案代码。对于普通用户而言，这意味着未来AI助手在执行复杂任务时将更可靠，减少突然“发疯”输出乱码的情况；对于研究社区，则强调了格式结构稳定性与过程级监督信号在智能体设计中的核心地位。

Q&A

Q1：强化学习为何会导致语言模型在工具调用任务中崩溃？

A：强化学习通过试错奖励机制优化模型行为，但在多轮工具调用中，模型需同时处理内容生成与格式控制。由于训练数据分布不均，模型可能过度强化某些控制标记，导致生成结构瓦解。例如，将“调用工具”与“结束对话”的标记错误关联，使模型在未完成查询时就提前终止流程。

Q2：过程反思监督（PRS）与传统监督微调有何本质区别？

A：传统监督微调仅提供正确答案作为训练目标，类似“只给期末成绩”；而PRS通过分析失败轨迹，生成包含错误定位、原因分析及修正策略的反思报告，相当于“批改作业时详细标注每一步对错”。这种过程级监督使模型理解“为何这样做”，而非机械记忆“应该这样做”，从而提升泛化能力。

Q3：交错训练与同步训练哪种更有效？为何？

A：交错训练表现更优。同步训练同时混合监督信号与强化学习，易因数据分布差异导致训练震荡；而交错训练通过分阶段优化，先让模型掌握基础格式（监督学习阶段），再通过试错提升策略（强化学习阶段），避免两种学习方式相互干扰。实验中，交错训练方案的KL散度曲线更平稳，最终得分普遍高于同步训练20%以上。

更多>同类资讯

上海创智学院携手穹彻智能共建联合实验室共育具身智能全栈人才

07-01

复旦大学新突破：机器人学会“自主探索” 适应新环境更高效

07-01

最高近百万的“赛博伴侣”来袭，是科技新宠还是昂贵“玩具”？

07-01

自变量机器人推出X-Tokenizer：重新定义VLA动作离散化新问题

07-01

优必选Cruzr Y1工业人形机器人亮相，旭日芯片助力工业场景能力升级

07-01

OpenAI系统底层优化显成效：AI模型推理成本大幅削减超五成

07-01

AI编程工具“重量级”进化：Codex流量硬盘双飙升，轻与重何去何从？

07-01

邬贺铨院士：2026年工业互联网迈入智能体新阶段，聚焦三大瓶颈与协同发展

06-30

Momenta港股招股引关注，智能驾驶竞争白热化谁能突围？

06-30

邮储银行原行长刘建军谈AI：破除“AI焦虑”需厘清三大认知误区

06-30

GLM-5.3新版本怎么搞？智谱唐杰全球问策，网友齐呼：快补视觉短板！

06-30

深圳众擎机器人科技全资设新公司聚焦智能与工业机器人领域发展

06-30

霞智科技注册资本增至约1.45亿增幅达13%展现发展活力

06-30

优必选发布全尺寸超仿生人形机器人U1，多版本定价公布订单量超1.1万台

6月30日，优必选全尺寸超仿生人形机器人U1发布，全身有88个自由度，U1 Pro价格16.98万元，U1Ultra男版和女版价格分别为99万元和88万元，轻量化半身的U1 Lite价格11.98万元。优…

06-30

英伟达重兵布局机器人领域：18600工程师年力推自动驾驶架构迁移应用

尽管英伟达并不直接制造机器人，但其正迅速成为具身智能企业背后的关键基础设施提供者。在6月22日举行的北美最大工业自动化展 Automate2026 上，英伟达机器人业务副总裁 Deepu Talla 披…

06-30

点击查看更多 +

全站最新

REDMI K90至尊版来袭！狂暴双芯+超强散热，2999元起开启游戏新体验

雷军谈小米SU7 Ultra纽北表现：立志打造比肩保时捷特斯拉的梦想座驾

织密算力网络郑州打造全国算力“数纽”赋能数字中国建设

鸿蒙智行智界V9旗舰MPV受热捧 6月交付量突破5000台大关

14个月10万辆达成，东风日产以体系力破局新能源市场

现代汽车或效仿丰田：主流车型加速混动转型，纯燃油车渐行渐远

热门内容

本栏最新

织密算力网络郑州打造全国算力“数纽”赋能数字中国建设

AI产业下半场：技术创新与产业落地融合下的五大趋势与机遇洞察

15万级荣威家越07将至，AI座舱与智驾升级，能否成家用SUV新宠？

华为极简全闪数据中心2.0：以数智之力，赋能千行百业数智化跃迁

世优科技赋能教育：数字人、动作捕捉与VR课堂共绘智慧校园新图景

晟兴电话机器人助力资料补全：小步试跑精准优化，让人机协作更高效自然

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.