小米大模型团队近期震撼发布其最新研发的多模态大模型——Xiaomi MiMo-VL-7B-2508,此次发布包括强化学习(RL)与监督微调(SFT)两大版本,为人工智能领域再添新动力。
据官方公布的数据显示,这款新版模型在多个核心性能指标上取得了显著突破。特别是在学科推理、文档理解、图形界面定位和视频理解四大领域,它刷新了以往记录。其中,MMMU基准得分首次跃上70分的高位,ChartQA的准确率高达94.4%,ScreenSpot-v2测试中的表现也达到了92.5%,而VideoMME的得分则提升至70.8%。
此次模型迭代的关键在于对强化学习稳定性的优化以及对监督微调流程的改进。这些努力使得模型在内部VLM Arena的评分从1093.9大幅提升至1131.2,标志着小米大模型团队在技术研发上的又一次飞跃。
尤为新版模型还引入了一项创新功能:用户可以通过“/no_think”指令自由切换“思考”与“非思考”模式。在“思考”模式下,模型会全程展示推理链条,确保控制成功率达到100%;而在“非思考”模式下,模型则直接生成答案,响应速度更快,且成功率高达99.84%。这一功能无疑为用户提供了更加灵活多样的使用体验。
对于希望体验最新技术的用户,小米大模型团队推荐使用RL版本的Xiaomi MiMo-VL-7B-RL-2508模型,该模型在大多数情况下都能提供出色的表现。用户可以通过以下链接获取该模型的开源代码:https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL-2508。
对于有特殊需求的用户,小米大模型团队还提供了SFT版本的Xiaomi MiMo-VL-7B-SFT-2508模型。用户可以在此基础上进行进一步的SFT或RL训练。与上一版SFT模型相比,该版本的RL稳定性得到了显著提升。用户可以通过以下链接获取该版本的开源代码:https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-SFT-2508。