meta公司近日正式推出MobileLLM-R1系列轻量化语言模型,包含1.4亿、3.6亿和9.5亿参数三种规格,专为移动端设备优化设计。该系列模型突破性地实现在智能手机等终端设备上直接运行,无需依赖云端计算资源。
与常规语言模型不同,MobileLLM-R1系列经过专项监督微调训练,聚焦数学运算、编程开发(涵盖Python/C++等语言)及科学问题求解三大领域。以参数规模最大的950M版本为例,其预训练阶段仅使用约2TB高质量数据,整体训练数据量不足5TB。尽管数据规模显著低于行业常规,该模型在MATH、GSM8K等数学基准测试中,性能表现超越采用36TB数据训练的Qwen 3-0.6B模型。
在编程能力评估方面,MobileLLM-R1 950M展现出显著优势。与同为开源模型的Olmo 1.24B和SmolLM 1.7B对比,其在LiveCodeBench编程测试中的表现全面领先。特别是在数学能力测试中,950M版本的准确率达到Olmo 1.24B的5倍,是SmolLM 1.7B的2倍。
技术实现层面,开发者可通过vLLM推理引擎部署该系列模型,仅需在ModelRegistry中注册Llama4ForCausalLM架构即可完成配置。目前MobileLLM-R1全系列已采用Apache 2.0开源协议,完整模型权重及训练代码均已上传至Hugging Face平台,供全球开发者自由使用。