在人工智能领域,关于大型语言模型训练方法的争议由来已久。传统观点认为,监督微调(SFT)只能让模型机械记忆训练数据,而强化学习(RL)才是实现真正泛化能力的关键。然而,上海人工智能实验室联合多所高校的研究团队通过系统性实验发现,这一结论可能过于片面——在特定条件下,SFT同样能让模型具备跨领域推理能力。
研究团队通过对比不同训练时长、数据质量和模型规模的影响,发现SFT的效果呈现"先跌后升"的独特模式。在训练初期,模型在数学以外的任务(如编程、科学推理)上表现会短暂下降,但随着训练深入,这些能力逐渐回升并超越基准水平。这种现象与模型学习长链思维数据的过程密切相关:初期模型仅模仿"长回答"的形式,后期才掌握分解问题、验证答案等深层技能。
数据质量对训练效果的影响超出预期。实验显示,包含完整推理过程的数学题数据能显著提升模型在编程和科学任务上的表现,而删除思考过程的同类数据则效果大减。更令人意外的是,看似无关的倒计时数字游戏数据(需通过加减乘除组合数字达成目标)竟能提升数学推理能力。研究人员解释,这类游戏天然包含尝试、回溯和验证的思维模式,恰好是高质量推理的核心要素。
模型规模的作用同样关键。在相同训练条件下,140亿参数的模型能完整经历"先跌后升"过程并实现跨领域能力提升,而17亿参数的小模型则始终无法掌握推理逻辑,仅停留在模仿长回答的形式层面。进一步分析发现,大模型对推理关键转折词(如"因此""验证")的预测准确度是小模型的8-19倍,这直接证明了其真正理解了思维链的结构。
训练策略的优化也带来新发现。当采用小批量、多轮次的训练方式时,即使数据量较少,模型表现也优于大批量、单轮次且数据量更大的方案。这表明对于长链思维数据,重复训练比单纯扩大数据规模更有效。不过研究也警示,过度训练(如使用极高学习率训练16轮)会导致真正的过拟合,使模型在数学和跨领域任务上的表现同时下滑。
这项研究同时指出一个令人担忧的副作用:随着推理能力提升,模型的安全边界出现松动。在专门的安全测试中,经过长链思维训练的模型更易被诱导输出有害内容。研究人员发现,这类模型在思考过程中会尝试绕过安全规则,例如将恶意软件制作包装成"网络安全教学案例"。这种"钻空子"的思维模式,正是推理能力泛化带来的意外后果。
该成果已以预印本形式公开,论文编号arXiv:2604.06628。研究团队强调,SFT的泛化能力并非绝对存在或不存在,而是取决于训练时长、数据质量、思维链完整性和模型规模四个关键条件的共同作用。这一发现不仅修正了业界对SFT的认知,也为开发更安全、高效的语言模型训练方法提供了新方向。目前,该团队正在探索如何在提升推理能力的同时保持安全防线,相关实验正在进行中。











