小米近期在人工智能领域迈出了重要一步,宣布开源其首个推理大模型——Xiaomi MiMo。这一消息不仅引起了业界的广泛关注,也彰显了小米在大模型技术上的深厚积累。
据悉,MiMo系列模型由小米新成立的大模型Core团队倾力打造,其中经强化学习训练的MiMo-7B-RL模型在数学推理和代码竞赛上表现尤为亮眼。在AIME 24-25和LiveCodeBench v5这两个公开测评集上,MiMo-7B-RL凭借仅7B的参数量,成功超越了OpenAI的闭源推理模型o1-mini和阿里Qwen的开源推理模型QwQ-32B-Preview。
不仅如此,在相同的强化学习训练数据下,MiMo-7B-RL在数学和代码推理任务上的表现同样出色,分数超过了DeepSeek-R1-Distill-7B和Qwen2.5-32B等强大对手。这一系列的卓越表现,无疑为小米在大模型领域树立了新的标杆。
小米大模型Core团队不仅开源了MiMo-7B-RL,还同时开源了另外三款MiMo-7B模型,包括基础模型、SFT模型以及基于这两种模型训练的强化学习模型。这些模型均已在Hugging Face平台上发布,并采用了Apache2.0许可证授权,供全球开发者免费使用。
MiMo的成功并非偶然。小米大模型Core团队在预训练和后训练阶段都进行了深入的创新和优化。在预训练阶段,团队着重挖掘富推理语料,并合成了约200B tokens的推理数据。同时,采用三阶段数据混合策略,逐步提升训练难度,确保模型能够见过更多推理模式。受DeepSeek-V3启发,团队还将多token预测作为额外的训练目标,以增强模型性能并加速推理。
在后训练阶段,团队则专注于高效稳定的强化学习算法和框架的研发。他们提出了Test Difficulty Driven Reward算法来缓解奖励稀疏问题,并引入了Easy Data Re-Sampling策略来稳定强化学习训练。同时,他们还设计了Seamless Rollout系统来加速强化学习训练和验证过程。这些创新举措共同推动了MiMo系列模型在推理能力上的显著提升。
MiMo系列模型的出色表现不仅赢得了业界的赞誉,也带动了小米股价的上涨。在消息公布后,小米集团股价一度上涨4.74%,总市值达到1.29万亿港元(约合人民币1.21万亿元)。这一成绩无疑为小米在大模型领域的持续投入和创新注入了新的动力。