meta AI团队近日正式推出MobileLLM-R1系列高效推理模型,标志着小参数语言模型进入全新发展阶段。该系列包含140M、360M和950M三种参数规模的基础模型及对应最终版本,专为数学计算、编程(Python/C++)和科学问题解决而设计,属于监督微调(SFT)模型而非通用聊天模型。
研发团队通过创新训练方案显著提升模型效率,950M参数版本仅使用约2T高质量token进行预训练,总训练量不足5T,却在MATH、GSM8K、MMLU和LiveCodeBench等基准测试中展现出惊人性能。与使用36T token训练的Qwen3 0.6B模型相比,该模型在各项指标上均达到同等水平甚至更优表现。在MATH基准测试中,950M模型的准确率是Olmo 1.24B模型的五倍,较SmolLM2 1.7B模型提升两倍,编码测试成绩更是在开源模型中创下新高。
该系列模型的突破性进展引发机器学习领域广泛关注。行业分析师指出,训练成本的指数级下降与性能的指数级提升形成鲜明对比,这种"降本增效"模式正在重塑模型开发范式。通过优化token使用效率,研发团队证明小参数模型同样能实现复杂任务处理,为资源受限环境下的AI应用提供可行解决方案。
核心研发团队由三位华人科学家领衔,其中Zechun Liu博士担任项目首席研究员。这位复旦大学本科、香港科技大学博士毕业的研究者,在卡内基梅隆大学访学期间师从AI领域顶尖教授,专注于模型量化与高效部署研究。Ernie Chang博士则带来多模态学习领域的丰富经验,其参与的"Agent-as-a-Judge"评估方法开创了模型评测新范式。团队第三位成员Changsheng Zhao博士拥有北京大学与哥伦比亚大学双重学术背景,在三星研究院工作期间积累的产业经验,为其主导的极低比特量化研究提供实践支撑。
技术文档显示,该系列模型架构经过特别优化,在保持轻量化的同时实现高效推理。研发团队通过创新性的神经网络设计,成功平衡模型复杂度与任务处理能力,这种设计哲学或将影响下一代端侧AI模型的开发方向。随着完整技术方案对外公开,学术界正围绕其提出的token效率提升机制展开深入探讨,多个研究团队已启动相关验证实验。