ITBear旗下自媒体矩阵:

Meta发布MobileLLM-R1:不足1B参数小模型,以低量训练达高效能

   时间:2025-09-15 16:04:45 来源:机器之心Pro编辑:快讯团队 IP:北京 发表评论无障碍通道
 

meta AI团队近日正式推出MobileLLM-R1系列高效推理模型,标志着小参数语言模型进入全新发展阶段。该系列包含140M、360M和950M三种参数规模的基础模型及对应最终版本,专为数学计算、编程(Python/C++)和科学问题解决而设计,属于监督微调(SFT)模型而非通用聊天模型。

研发团队通过创新训练方案显著提升模型效率,950M参数版本仅使用约2T高质量token进行预训练,总训练量不足5T,却在MATH、GSM8K、MMLU和LiveCodeBench等基准测试中展现出惊人性能。与使用36T token训练的Qwen3 0.6B模型相比,该模型在各项指标上均达到同等水平甚至更优表现。在MATH基准测试中,950M模型的准确率是Olmo 1.24B模型的五倍,较SmolLM2 1.7B模型提升两倍,编码测试成绩更是在开源模型中创下新高。

该系列模型的突破性进展引发机器学习领域广泛关注。行业分析师指出,训练成本的指数级下降与性能的指数级提升形成鲜明对比,这种"降本增效"模式正在重塑模型开发范式。通过优化token使用效率,研发团队证明小参数模型同样能实现复杂任务处理,为资源受限环境下的AI应用提供可行解决方案。

核心研发团队由三位华人科学家领衔,其中Zechun Liu博士担任项目首席研究员。这位复旦大学本科、香港科技大学博士毕业的研究者,在卡内基梅隆大学访学期间师从AI领域顶尖教授,专注于模型量化与高效部署研究。Ernie Chang博士则带来多模态学习领域的丰富经验,其参与的"Agent-as-a-Judge"评估方法开创了模型评测新范式。团队第三位成员Changsheng Zhao博士拥有北京大学与哥伦比亚大学双重学术背景,在三星研究院工作期间积累的产业经验,为其主导的极低比特量化研究提供实践支撑。

技术文档显示,该系列模型架构经过特别优化,在保持轻量化的同时实现高效推理。研发团队通过创新性的神经网络设计,成功平衡模型复杂度与任务处理能力,这种设计哲学或将影响下一代端侧AI模型的开发方向。随着完整技术方案对外公开,学术界正围绕其提出的token效率提升机制展开深入探讨,多个研究团队已启动相关验证实验。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version