滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

多模态大模型训练新洞察：SFT与RL间藏分布断层需及时“修复”

时间：2026-05-18 02:50:57 来源：快讯编辑：快讯 IP：北京 发表评论无障碍通道

在多模态大模型（MLLM）的后训练领域，一种长期被视为标准流程的范式正受到挑战。传统做法是先进行监督微调（SFT），再通过强化学习（RL）优化模型性能，这种两步走的策略被众多研究团队采用，从DeepSeek到Qwen系列模型均遵循此道。然而最新研究显示，这种看似合理的流程可能隐藏着重大缺陷——SFT阶段不仅未能为后续RL训练奠定基础，反而可能造成模型能力退化。

实验数据揭示了令人意外的事实：在7个主流多模态基准测试中，经过SFT训练的Qwen3-VL-4B模型准确率从59.7%降至56.8%，8B版本更从63.3%暴跌至58.1%。这种性能下滑现象在强基座模型上尤为明显，当SFT数据引入与原始训练分布不同的新数据时，模型会因被迫适应更狭窄的分布模式而丢失原有能力。研究人员指出，这相当于RL训练从"负起点"开始，后续优化过程实际上是在弥补SFT造成的损失而非真正提升能力。

问题根源在于SFT阶段存在的双重偏差机制。首先，基于token级损失的优化方式将推理过程与最终结果同等对待，导致模型学会模仿表面模式而非真正掌握推理逻辑。其次，多模态场景特有的感知-推理耦合问题加剧了训练难度——视觉定位错误（感知漂移）与逻辑推导失误（推理漂移）被同一损失函数处理，使得模型同时出现"看不准"和"想不对"的双重缺陷。现有RL算法虽在采样效率等方面持续改进，却始终未能解决SFT遗留的分布偏差问题。

针对这些挑战，研究团队提出了创新性的三阶段训练框架：在传统SFT与RL之间插入分布对齐阶段。该方案的核心是混合专家判别器（MoE Discriminator），通过解耦感知与推理评估机制，分别用视觉专家（D_v）和推理专家（D_r）处理不同类型的偏差。这种设计允许模型同时接收关于视觉描述准确性和逻辑一致性的双重反馈，其判别得分由两者加权组合而成：r(x,y) = α·D_v(x,c) + (1-α)·D_r(x,t)。

该框架的另一突破在于实现黑盒蒸馏，无需访问教师模型的内部参数。通过采集强模型（如Gemini 3 Flash）的输出作为正样本，结合当前策略生成的负样本进行对抗训练，即可完成分布对齐。这种设计极大提升了方法的实用性，使得研究者仅需调用API就能完成模型优化。实验表明，去除传统RL中常用的KL正则化约束后，模型在分布对齐阶段的表现反而显著提升，验证了该设计能有效纠正SFT造成的偏差。

在Qwen3-VL模型的实证研究中，新框架展现出显著优势。搭配GRPO/DAPO/GSPO等主流RL算法时，8B模型在数学推理和通用视觉任务上平均提升6.0个百分点，4B模型提升4.4个百分点。消融实验进一步证实，分布对齐阶段贡献了约40%的性能增益，而混合专家判别器的设计比单一判别器效果提升近30%。特别值得注意的是，当移除视觉感知判别器时，模型会陷入"鹦鹉学舌"式对齐，仅能模仿输出格式而无法理解视觉内容，这从反面证明了多模态解耦评估的重要性。

更多>同类资讯

从实验室到生产线：天开园如何助力正则量子架起光量子产业化桥梁？

05-18

努比亚新机获3C认证，红魔11S Pro携双芯与散热黑科技明日登场

05-18

中国电信“网优大模型”落地显成效，开启“体验驱动”网络运营新篇章

05-18

弘信电子携手华为昇腾384落户无锡打造高性能“国芯国模”Token工厂新标杆

05-18

理想L9上市“价格惊喜”来袭！从汽车到“智能体”的变革启程

05-18

比亚迪大唐EV江城预售开启东方美学与硬核科技共铸纯电出行新典范

05-18

努比亚新机获认证蓄势待发，红魔11S Pro携创新散热明日登场

05-18

从智能汽车到具身智能：理想汽车如何布局未来“车与家”新生态

05-18

比亚迪大唐EV江城预售启幕东方美学融合硬核科技重塑纯电SUV新标杆

05-18

AMD新专利亮相：简笔画草图搭配AI，轻松生成逼真游戏画面与内容

05-17

上海领跑天基计算赛道光计算突破技术边界加速太空应用落地

05-17

中国电信“网优大模型”落地显成效，开启“体验驱动”网络运营新征程

05-17

中国电信试商用Token套餐来袭！覆盖多群体，构建跨终端共享生态

05-17

照明行业迎智能化新篇：外资昕诺飞GenAI智能体获认证深耕中国服务全球

05-17

百年复旦化学：以基础研究为“火种”，燃动创新与人才培育新引擎

05-17

点击查看更多 +

全站最新

王力宏出任腾势代言人，共启高端新能源征程，腾势N9闪充版引期待

全新奥迪Q9内饰亮点大揭秘！高科技配置与豪华体验，夏季亮相引期待

零跑官宣第二品牌计划，产品或年底亮相，定价超30万，一季度财报有喜有忧

理想L9上市“价格惊喜”来袭！从汽车到“智能体”的变革启程

比亚迪大唐EV江城预售开启东方美学与硬核科技共铸纯电出行新典范

汽车电子狗电源管理新思路：功率MOSFET选型助力高效可靠设计

热门内容

本栏最新

理想L9上市“价格惊喜”来袭！从汽车到“智能体”的变革启程

比亚迪大唐EV江城预售开启东方美学与硬核科技共铸纯电出行新典范

从智能汽车到具身智能：理想汽车如何布局未来“车与家”新生态

比亚迪大唐EV江城预售启幕东方美学融合硬核科技重塑纯电SUV新标杆

中国电信试商用Token套餐来袭！覆盖多群体，构建跨终端共享生态

昊铂S600开启预售！18.89万起享轿跑SUV，智能配置拉满

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.

多模态大模型训练新洞察：SFT与RL间藏分布断层 需及时“修复”

多模态大模型训练新洞察：SFT与RL间藏分布断层需及时“修复”