ITBear旗下自媒体矩阵:

国际团队开源新突破:AI多模态推理训练全流程透明化公开

   时间:2026-01-16 01:57:52 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

人工智能领域迎来一项突破性进展——国际研究团队成功开发出名为OpenMMReasoner的多模态推理模型,其性能较主流模型提升11.6%,且训练方法与数据实现完全开源。这项由新加坡MiroMind AI公司、南洋理工大学、清华大学及LMMs-Lab团队联合完成的研究,通过创新的两阶段训练策略,在保持模型高效性的同时实现了推理能力的显著突破。

传统AI模型训练常被比喻为"黑箱烹饪",企业往往将核心数据与方法视为商业机密。研究团队此次打破行业惯例,不仅公开最终模型,更将87.4万条监督学习数据、7.4万条强化学习数据、完整训练流程及超参数设置全部开放。这种透明度在AI领域尚属首次,为全球研究者提供了可复现的完整技术路径。

模型性能提升得益于独特的训练架构设计。第一阶段采用"教师模型蒸馏"技术,通过对比Qwen2.5-VL-72B与Qwen3-VL-235B两个教师模型,发现后者使模型性能提升5.2个百分点。更关键的是,研究团队发现对同一问题生成8个不同答案进行训练时,模型得分较单答案训练提升近10个百分点,这验证了数据多样性对推理能力的重要性。

在数据筛选策略上,研究团队颠覆传统认知。实验表明,过度筛选反而降低模型性能,最终采用"无筛选"策略保留所有通过基础验证的数据。这种策略使模型在数学视觉推理测试MathVista中取得79.5%的准确率,较基准模型提升10.3个百分点。跨领域数据融合策略同样成效显著,同时添加图像数学与文本数学数据使模型得分再提升1.1个百分点。

第二阶段强化学习引入组合式奖励机制,其中90%权重分配给答案准确性,10%关注输出格式规范性。研究团队通过对比GSPO、DAPO、GRPO三种算法,发现GSPO在稳定性和收敛速度上表现最优。长度惩罚机制的引入有效解决了"过度思考"问题,使模型输出长度仅为同类模型的一半,同时保持推理深度。

训练过程中出现的意外发现为AI发展提供新视角。模型在强化学习阶段不仅提升多模态推理能力,纯文本推理能力也同步增强,在AIME24数学竞赛中的得分从6.7%跃升至27.1%。输出文本分析显示,"反思性"词汇使用频率随训练增加,表明模型逐渐形成深度思考模式。训练稳定性实验证实,生成温度设为1.0、每次更新使用16个样本的配置效果最佳。

在九项基准测试中,OpenMMReasoner展现全面优势。除数学视觉推理外,在涵盖艺术历史到自然科学的MMMU测试中取得50.0%准确率,MMMU-Pro测试达57.8%。效率对比显示,某些竞争模型虽能达到相似准确率,但输出长度是OpenMMReasoner的两倍,这在实际应用中将显著增加计算成本。

该研究为资源有限的研究团队提供新思路。OpenMMReasoner仅用87.4万条监督学习样本就达到其他模型数千万样本的训练效果,证明科学的数据筛选与训练策略比单纯增加数据量更有效。完全开源的87.4万样本数据集与7.4万样本强化学习数据,已成为全球AI研究社区的重要资源。

对于普通研究者而言,这项成果具有特殊价值。所有训练数据、代码及模型参数均可免费获取,研究者既能直接复现实验结果,也可在此基础上进行改进。研究团队制作的对比表格显示,在数据流程、监督学习数据、强化学习数据、模型权重四个关键维度,OpenMMReasoner是首个实现完全公开的先进多模态推理模型。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version