小米近日正式推出并开源全新大模型MiMo-V2-Flash,凭借3090亿总参数与150亿活跃参数的规模,在性能表现上与DeepSeek-V3.2、Kimi-K2等头部开源模型形成有力竞争。该模型采用专家混合架构(MoE),通过架构层面的突破性创新,将推理速度提升至150 tokens/秒,同时将输入成本压缩至每百万token仅0.1美元,输出成本0.3美元,在性价比维度树立新标杆。

在基准测试中,MiMo-V2-Flash展现多维优势:AIME 2025数学竞赛与GPQA-Diamond科学知识测试均位列开源模型前两名;编程能力尤为突出,SWE-bench Verified测试得分73.4%,超越所有开源竞品,直逼GPT-5-High水平。该测试要求AI修复真实软件漏洞,73.4%的成功率意味着其已具备解决大部分实际编程问题的能力。多语言编程测试SWE-Bench Multilingual中,模型以71.7%的解决率进一步验证跨语言开发实力。
智能体任务测试数据显示,模型在τ²-Bench分类任务中,通信类得分95.3、零售类79.5、航空类66.0;BrowseComp搜索代理基准测试中,基础得分45.4,启用上下文管理后跃升至58.3。这些成绩表明,MiMo-V2-Flash不仅能处理代码生成等单一任务,更可理解复杂逻辑并执行多轮智能体交互。值得关注的是,其文本生成质量已接近顶级闭源模型,具备成为全能型日常助手的潜力。
支撑模型性能突破的是两项核心技术:混合滑动窗口注意力机制通过5层滑动窗口(每层128 token)与1层全局注意力的交替设计,使KV缓存存储量减少近6倍,同时维持256k超长上下文窗口能力;轻量级多Token预测(MTP)模块实现并行生成2.8-3.6个token,推理速度提升2-2.6倍,训练阶段采样效率同步优化。研究团队特别指出,128 token窗口大小经实验验证为"最佳甜点值",盲目扩大窗口反而导致性能下降。

训练效率方面,模型采用FP8混合精度技术,在27万亿token数据上完成预训练,原生支持32k序列长度。后训练阶段创新提出多教师在线策略蒸馏(MOPD),通过学生模型自主采样、多专家教师实时反馈的机制,仅需传统方法1/50的算力即可达到同等性能峰值。该框架支持动态接入新教师模型,形成"教学相长"的闭环进化系统。
针对开发者场景,MiMo-V2-Flash提供256k上下文窗口,可支持数百轮智能体交互与工具调用,与Claude Code、Cursor等主流开发环境无缝兼容。技术团队基于真实GitHub issue构建超10万个验证任务,通过Kubernetes集群实现10000+并发Pod部署,环境部署成功率达70%。网页开发任务中引入的多模态验证器,通过视频录制替代静态截图验证代码执行结果,有效减少视觉幻觉问题。
目前,小米已将完整模型细节、推理代码及基础权重(含MiMo-V2-Flash-Base)通过MIT许可协议在Hugging Face平台开源,并在LMSYS博客分享优化经验。该模型现已在API Platform限时免费开放,开发者可直接调用体验。








