ITBear旗下自媒体矩阵:

多模态大模型训练新洞察:SFT与RL间藏分布断层 需及时“修复”

   时间:2026-05-18 02:50:57 来源:快讯编辑:快讯 IP:北京 发表评论无障碍通道
 

在多模态大模型(MLLM)的后训练领域,一种长期被视为标准流程的范式正受到挑战。传统做法是先进行监督微调(SFT),再通过强化学习(RL)优化模型性能,这种两步走的策略被众多研究团队采用,从DeepSeek到Qwen系列模型均遵循此道。然而最新研究显示,这种看似合理的流程可能隐藏着重大缺陷——SFT阶段不仅未能为后续RL训练奠定基础,反而可能造成模型能力退化。

实验数据揭示了令人意外的事实:在7个主流多模态基准测试中,经过SFT训练的Qwen3-VL-4B模型准确率从59.7%降至56.8%,8B版本更从63.3%暴跌至58.1%。这种性能下滑现象在强基座模型上尤为明显,当SFT数据引入与原始训练分布不同的新数据时,模型会因被迫适应更狭窄的分布模式而丢失原有能力。研究人员指出,这相当于RL训练从"负起点"开始,后续优化过程实际上是在弥补SFT造成的损失而非真正提升能力。

问题根源在于SFT阶段存在的双重偏差机制。首先,基于token级损失的优化方式将推理过程与最终结果同等对待,导致模型学会模仿表面模式而非真正掌握推理逻辑。其次,多模态场景特有的感知-推理耦合问题加剧了训练难度——视觉定位错误(感知漂移)与逻辑推导失误(推理漂移)被同一损失函数处理,使得模型同时出现"看不准"和"想不对"的双重缺陷。现有RL算法虽在采样效率等方面持续改进,却始终未能解决SFT遗留的分布偏差问题。

针对这些挑战,研究团队提出了创新性的三阶段训练框架:在传统SFT与RL之间插入分布对齐阶段。该方案的核心是混合专家判别器(MoE Discriminator),通过解耦感知与推理评估机制,分别用视觉专家(D_v)和推理专家(D_r)处理不同类型的偏差。这种设计允许模型同时接收关于视觉描述准确性和逻辑一致性的双重反馈,其判别得分由两者加权组合而成:r(x,y) = α·D_v(x,c) + (1-α)·D_r(x,t)。

该框架的另一突破在于实现黑盒蒸馏,无需访问教师模型的内部参数。通过采集强模型(如Gemini 3 Flash)的输出作为正样本,结合当前策略生成的负样本进行对抗训练,即可完成分布对齐。这种设计极大提升了方法的实用性,使得研究者仅需调用API就能完成模型优化。实验表明,去除传统RL中常用的KL正则化约束后,模型在分布对齐阶段的表现反而显著提升,验证了该设计能有效纠正SFT造成的偏差。

在Qwen3-VL模型的实证研究中,新框架展现出显著优势。搭配GRPO/DAPO/GSPO等主流RL算法时,8B模型在数学推理和通用视觉任务上平均提升6.0个百分点,4B模型提升4.4个百分点。消融实验进一步证实,分布对齐阶段贡献了约40%的性能增益,而混合专家判别器的设计比单一判别器效果提升近30%。特别值得注意的是,当移除视觉感知判别器时,模型会陷入"鹦鹉学舌"式对齐,仅能模仿输出格式而无法理解视觉内容,这从反面证明了多模态解耦评估的重要性。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version