阿里国际数字商业团队近日在 Marco-MoE 系列模型中重磅推出新成员——Marco-Mini-Instruct,再次展现了“以小博大”的极致效率理念。该模型总参数量17.3B,激活参数量却仅0.86B(约占5%),推理效率极高,甚至在普通 CPU 上即可实现流畅运行。
极致轻量化:CPU 也能跑飞起
根据官方估算,若采用8bit 量化并搭配4条 DDR42400内存,该模型推理速度可达约30token/s。这一性能让 MoE 架构真正走向“人人可用”的阶段,极大降低了本地部署门槛。
核心创新:Upcycling 技术“点石成金”
Marco-Mini-Instruct 的最大亮点并非参数规模或速度,而是其诞生方式。该模型并非从零开始训练,而是基于 Qwen3-0.6B-Base 模型通过upcycling技术转化而来。
具体流程为:将 Dense 小模型的部分模块拆分或复制为多个专家(experts),并引入路由机制;同时结合细粒度子矩阵切分与Drop-Upcycling策略(训练过程中按一定概率随机丢弃部分专家或路由路径,加入正则化以提升鲁棒性),实现了从纯 Dense 模型到 MoE 架构的平滑升级。这一方法为行业提供了低成本、高效率的 MoE 炼制新路径。
上下文与训练配置细节
模型 config 中 max_position_embeddings 已扩展至32K,但 SFT 阶段实际采用8192token 上下文,因此默认上下文长度更适合大多数实际应用场景。
后训练亮点:级联 On-Policy 蒸馏
后训练流程同样亮眼:先进行 SFT 预热,随后采用级联 On-Policy Distillation策略——先以 Qwen3-30B-A3B-Instruct 为教师模型进行蒸馏,再切换至更强大的 Qwen3-Next-80B-A3B-Instruct。蒸馏数据覆盖指令遵循、复杂推理、对齐安全、数学能力等多维度,确保模型在保持高效的同时,全面提升综合智能水平。
性能实测:0.86B 激活碾压4B 级 Dense 模型
最终发布的 Marco-Mini-Instruct 在大部分主流 benchmark 上,以仅0.86B 激活参数的表现,超越了 Qwen3-4B 等众多 Dense 模型,充分验证了 MoE 架构在“小而美”路线上的巨大潜力。
行业意义:开源 MoE 炼制新范式
AIbase 认为,这一成果的最大价值在于为广大开发者打开了一扇新大门——无需从零训练海量 MoE 模型,只需选取一个合适的 Dense 小模型,严格复现论文中的 upcycling+Drop-Upcycling 流程即可。整个训练成本可控:SFT 阶段仅需64GPU×24小时,蒸馏阶段为64GPU×110小时,极大降低了中小团队尝试 MoE 的门槛。
阿里此次“魔改”再次证明:模型效率的突破不一定依赖参数堆砌,创新训练范式同样能带来质的飞跃。Marco-Mini-Instruct 的发布,无疑将加速 MoE 技术在边缘设备、个人开发者场景中的落地,值得全行业持续关注。





