滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

阿里黑科技炸场！0.6B 小模型“魔改”成 17B MoE，激活参数仅 5%，CPU 直接跑 30token/s！

时间：2026-04-10 16:05:11 来源：CHINAZ编辑：快讯 IP：北京 发表评论无障碍通道

阿里国际数字商业团队近日在 Marco-MoE 系列模型中重磅推出新成员——Marco-Mini-Instruct，再次展现了“以小博大”的极致效率理念。该模型总参数量17.3B，激活参数量却仅0.86B（约占5%），推理效率极高，甚至在普通 CPU 上即可实现流畅运行。

极致轻量化:CPU 也能跑飞起

根据官方估算，若采用8bit 量化并搭配4条 DDR42400内存，该模型推理速度可达约30token/s。这一性能让 MoE 架构真正走向“人人可用”的阶段，极大降低了本地部署门槛。

核心创新:Upcycling 技术“点石成金”

Marco-Mini-Instruct 的最大亮点并非参数规模或速度，而是其诞生方式。该模型并非从零开始训练，而是基于 Qwen3-0.6B-Base 模型通过upcycling技术转化而来。

具体流程为:将 Dense 小模型的部分模块拆分或复制为多个专家（experts），并引入路由机制;同时结合细粒度子矩阵切分与Drop-Upcycling策略（训练过程中按一定概率随机丢弃部分专家或路由路径，加入正则化以提升鲁棒性），实现了从纯 Dense 模型到 MoE 架构的平滑升级。这一方法为行业提供了低成本、高效率的 MoE 炼制新路径。

上下文与训练配置细节

模型 config 中 max_position_embeddings 已扩展至32K，但 SFT 阶段实际采用8192token 上下文，因此默认上下文长度更适合大多数实际应用场景。

后训练亮点:级联 On-Policy 蒸馏

后训练流程同样亮眼:先进行 SFT 预热，随后采用级联 On-Policy Distillation策略——先以 Qwen3-30B-A3B-Instruct 为教师模型进行蒸馏，再切换至更强大的 Qwen3-Next-80B-A3B-Instruct。蒸馏数据覆盖指令遵循、复杂推理、对齐安全、数学能力等多维度，确保模型在保持高效的同时，全面提升综合智能水平。

性能实测:0.86B 激活碾压4B 级 Dense 模型

最终发布的 Marco-Mini-Instruct 在大部分主流 benchmark 上，以仅0.86B 激活参数的表现，超越了 Qwen3-4B 等众多 Dense 模型，充分验证了 MoE 架构在“小而美”路线上的巨大潜力。

行业意义:开源 MoE 炼制新范式

AIbase 认为，这一成果的最大价值在于为广大开发者打开了一扇新大门——无需从零训练海量 MoE 模型，只需选取一个合适的 Dense 小模型，严格复现论文中的 upcycling+Drop-Upcycling 流程即可。整个训练成本可控:SFT 阶段仅需64GPU×24小时，蒸馏阶段为64GPU×110小时，极大降低了中小团队尝试 MoE 的门槛。

阿里此次“魔改”再次证明:模型效率的突破不一定依赖参数堆砌，创新训练范式同样能带来质的飞跃。Marco-Mini-Instruct 的发布，无疑将加速 MoE 技术在边缘设备、个人开发者场景中的落地，值得全行业持续关注。

更多>同类资讯

从SpaceX到AI领域：Alphabet“隐形财富”浮出，投资版图再引关注

04-22

人工智能时代：财富流向何处？瓶颈所在即价值所聚

04-22

零跑D19直播AR导航现“小插曲” 官方：显示渲染bug已修复不影响安全

04-22

中国芯片，DeepSeek与Kimi的隐秘交点

04-22

百度地图联合雅迪首发支持鸿蒙投屏导航

04-22

SpaceX透露风险：太空AI数据中心在商业上不可行

04-22

在小屏机上堆料做影像？OPPO的小屏机这次能行吗？

04-22

SpaceXAI与CursorAI现已达成深度合作

04-22

奥特曼亲自上阵，Images 2.0登顶王座！生图跨入GPT-5时代

04-22

SpaceX放出“IPO重磅炸弹”：太空AI技术未经验证，未必能商业化

04-22

Kimi K2.6：大模型进入“长程执行”时代

04-22

小米SU7被大货车撞击驾驶员无伤又定了一台

04-22

谷歌真急了！深夜更新Deep Research智能体，支持原生图表

04-22

拒绝透露姓名，拿了两个第一：大佬们都在打听它是谁

04-22

高焕：25万以上电动汽车用磷酸铁锂电池，是变向减配

04-22

点击查看更多 +

全站最新

零跑D19直播AR导航现“小插曲” 官方：显示渲染bug已修复不影响安全

赵明车圈首秀今晚开启千里科技AI战略及产品发布会亮点抢先看

比亚迪宋Pro DM-i飞驰版上市，续航升级配智驾，9.99万起开启家用新体验

零跑D19直播续航挑战现导航小插曲高级副总裁曹力：已修复继续看

归元S平台赋能魏牌V9X：AI时代豪华汽车如何重塑出行新体验？

地平线发布三大战略产品，引领智能汽车驶向中央计算新纪元

热门内容

本栏最新

零跑D19直播AR导航现“小插曲” 官方：显示渲染bug已修复不影响安全

CLI与GUI Agent并非替代关系，bit-Agent如何让二者协同赋能企业数智化

自变量王潜：35天后机器人进家，开启家庭服务新篇章

PearlError-包含视频过滤

2026北京车展：新势力轿车“组团”亮相，豪华个性车型成市场新焦点

马斯克无人出租车愿景虽好，但美国难落地，中国或成无人驾驶成功范本

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.