当人工智能系统在复杂任务中突然“失控”,输出毫无意义的乱码,这背后究竟隐藏着怎样的机制?中国科学院自动化研究所与国科大人工智能学院的研究团队,针对大型语言模型在多轮工具调用任务中出现的“强化学习崩溃”现象展开系统性研究,揭示了训练过程中格式结构混乱是导致性能骤降的关键原因,并提出创新性的修复方案。
现代语言模型虽能处理海量文本,却无法直接调用外部工具完成实时查询、订票等任务。研究人员通过设计标准化指令格式,使模型能向天气API、航班系统等工具发送请求并解析返回数据。这种多轮交互类似侦探破案——需持续收集线索、调整策略。然而,当团队尝试用强化学习优化这一过程时,模型表现却出现剧烈波动:部分场景下得分直接归零,甚至低于未训练的基准水平。
实验发现,崩溃并非源于模型丧失推理能力,而是强化学习过程中控制标记分配混乱所致。研究团队形象比喻:这如同训练厨师时,将“开始烹饪”与“结束服务”的指令信号混淆,导致其刚拿起锅铲就宣布“服务完成”。通过调整提问格式,崩溃模型仍能展现基础工具调用能力,证明其核心技能未丢失,只是被格式问题遮蔽。
为解决这一难题,研究团队提出五大监督信号干预方案。其中,“过程反思监督”(PRS)表现最为突出:先让模型自由探索生成轨迹,再由GPT-4o-mini分析失败案例,生成包含错误类型、根本原因及修正方法的详细反思报告。这些报告作为额外训练数据,帮助模型理解工具调用的逻辑结构,而非机械记忆固定格式。实验显示,采用PRS方案的Qwen2.5-1.5B模型平均得分达25.75分,较纯强化学习提升超25倍。
泛化能力测试进一步验证PRS的优势。在内容与格式均未见过的场景中,PRS方案仍能取得12分,而传统监督微调方案得分直接归零。研究团队指出,后者因过度依赖特定格式,导致模型在新场景中“认生”,而PRS培养的深层推理能力使其能跨越格式障碍,灵活应对变化。
学习率设置对训练效果的影响同样显著。实验表明,将学习率从10⁻⁶提升至10⁻⁵后,模型进步速度加快,强化学习阶段能有效纠正监督微调阶段的偏差。但在Qwen3-1.7B模型上,研究团队发现其特有的“思考前缀”机制与训练格式错位,导致性能崩溃。这一案例警示:多阶段训练中,任何细微的格式不一致都可能引发连锁反应。
该研究不仅为AI训练稳定性提供了理论解释,更开发出开源工具包Tool-RL-Box,包含基准测试平台与五种干预方案代码。对于普通用户而言,这意味着未来AI助手在执行复杂任务时将更可靠,减少突然“发疯”输出乱码的情况;对于研究社区,则强调了格式结构稳定性与过程级监督信号在智能体设计中的核心地位。
Q&A
Q1:强化学习为何会导致语言模型在工具调用任务中崩溃?
A:强化学习通过试错奖励机制优化模型行为,但在多轮工具调用中,模型需同时处理内容生成与格式控制。由于训练数据分布不均,模型可能过度强化某些控制标记,导致生成结构瓦解。例如,将“调用工具”与“结束对话”的标记错误关联,使模型在未完成查询时就提前终止流程。
Q2:过程反思监督(PRS)与传统监督微调有何本质区别?
A:传统监督微调仅提供正确答案作为训练目标,类似“只给期末成绩”;而PRS通过分析失败轨迹,生成包含错误定位、原因分析及修正策略的反思报告,相当于“批改作业时详细标注每一步对错”。这种过程级监督使模型理解“为何这样做”,而非机械记忆“应该这样做”,从而提升泛化能力。
Q3:交错训练与同步训练哪种更有效?为何?
A:交错训练表现更优。同步训练同时混合监督信号与强化学习,易因数据分布差异导致训练震荡;而交错训练通过分阶段优化,先让模型掌握基础格式(监督学习阶段),再通过试错提升策略(强化学习阶段),避免两种学习方式相互干扰。实验中,交错训练方案的KL散度曲线更平稳,最终得分普遍高于同步训练20%以上。










