小米公司近日通过其官方公众号“Xiaomi MiMo”震撼宣布,已将旗下多模态大模型——Xiaomi MiMo-VL,正式向全球开源。此次开源的版本中,MiMo-VL-7B的强化学习(RL)前后模型,以及支持超过50项任务的框架,均已在GitHub上亮相。
MiMo-VL在多任务处理上的卓越表现,特别是在多模态推理领域,让人眼前一亮。尽管MiMo-VL-7B的参数规模仅为7B,但在奥林匹克竞赛基准测试(OlympiadBench)及多个数学竞赛(如MathVision、MathVerse)中,其表现均大幅超越了参数规模达72B的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,甚至超过了非开源的GPT-4o。在小米内部的大模型竞技场中,MiMo-VL-7B同样以出色的用户体验,力压GPT-4o,成为开源模型中的新标杆。
MiMo-VL-7B不仅在复杂的图片推理和问答任务上游刃有余,还展现了惊人的GUI操作能力,能够完成多达10余步的复杂操作。这一能力预示着在AI Agent时代,MiMo-VL将拥有巨大的应用潜力。例如,用户可以通过MiMo-VL,轻松地将心仪的商品,如小米SU7,添加到心愿单中,享受前所未有的便捷体验。
小米团队在构建MiMo-VL时,投入了大量精力收集、清洗和合成高质量的预训练多模态数据。这些数据涵盖了图片-文本对、视频-文本对以及GUI操作序列等多种类型,总量高达2.4T tokens。通过精细地调整不同数据类型在训练过程中的比例,小米团队成功地强化了模型的长程多模态推理能力。
小米还创新性地采用了混合在线强化学习算法(MORL),该算法融合了文本推理、多模态感知推理以及RLHF等多种反馈信号,全方位提升了模型的推理能力、感知性能和用户体验。这一算法的引入,无疑为MiMo-VL的卓越表现奠定了坚实的基础。
MiMo-VL的开源不仅展示了小米在AI领域的深厚积累,更为全球开发者提供了一个强大的多模态大模型平台。未来,随着更多开发者的加入和贡献,MiMo-VL的应用场景和性能表现无疑将更加丰富多彩。