小米近期在AI领域动作频频,其最新发布的MiMo-V2.5系列模型引发广泛关注。此前,小米因MiMo-V2-Pro仅公布SWE-bench Verified评分结果而受到质疑,如今在V2.5-Pro宣传中,小米将SWE-bench Pro置于显著位置,并标注在OpenRouter模型描述中,成绩与全球顶尖模型Claude Opus 4.6和GPT-5.4相当,这一转变令人瞩目。
MiMo-V2.5系列模型亮点颇多。此次小米将“Agent能力、长上下文、多模态、token效率、第三方框架适配”整合到同一代产品中,榜单成绩并非重点。新模型整体叙事极具“工程化”特色,围绕开发者工作流语境展开,对模型性能提及较少。其中,MiMo-V2.5-Pro以“长程agent”为核心,聊天功能成为附带。在合适的harness下,它能持续完成超1000次工具调用的长任务。
小米为此展示了三个复杂demo。第一个是耗时4.3小时、进行672次工具调用完整编写出SysY编译器。该任务源自北京大学编译原理课程项目,要求从零实现完整编译器,包含多个部分及性能优化,通常需北大计算机专业学生数周完成。MiMo-V2.5-Pro在隐藏测试集上获满分,模型构建编译器过程有条不紊,首次编译就有较高冷启动通过率,且能自我纠错继续执行任务。第二个demo是11.5小时、1868次工具调用做出可用的视频编辑器桌面应用,仅需简单提示,模型就交付完整应用,构建代码达8192行。第三个是接入ngspice仿真闭环做模拟电路FVF-LDO设计优化,这是研究生级别任务,模型需满足多个指标要求,在约1小时闭环迭代中,最终设计各指标达标,部分指标大幅改进。
MiMo-V2.5系列在其他方面也有出色表现。它将多模态和agent能力融合,原生视觉和音频理解能力接近Gemini 3 Pro,Claw-eval多模态子集分数与Claude Sonnet 4.6持平。最长支持100万token上下文,agent性能超越上一代,在自家MiMo Coding Bench上,V2.5成本仅为Pro级一半。与一般AI厂商不同,MiMo-V2.5将多种能力集成于一个模型,能理解更多需求、执行更复杂任务。同时,小米把“token效率”作为卖点,在Claweval上,MiMo-V2.5-Pro以较少token达到较高Pass率,比其他模型节省40%到60%token,小米还取消1M上下文额外倍率,降低Agent试错门槛。
随着V2.5发布,小米完善了4月初发布的Token Plan订阅体系,共设4档套餐,还有夜间8折、包年88折等优惠,并对老用户重置已用Credits。这表明小米正式进军卖token业务,构建非硬件依赖的经常性收入模型。小米选在夜间发布,意在拓展国际化市场。当自建算力集群达到一定规模,增加付费用户成本低,ARPU可通过差异化定价提升,这是典型的SaaS商业模式,毛利率高。Token Plan适配主流AI开发框架,争夺AI原生应用底层基础设施入口。若小米汽车、IoT设备第三方应用基于MiMo开发,雷军将掌握生态“算力税收权”。不过,小米Token Plan能否成功,关键在于能否兑现V2.5系列开源承诺。小米走开源路线,开源可吸引长尾开发者,形成生态繁荣,闭源API服务企业客户,开源社区反哺模型迭代,这一逻辑在行业已得到验证。
然而,MiMo-V2.5系列也存在一些问题。目前SWE-bench Pro最高分是Claude Mythos Preview的77.8%,MiMo-V2.5-Pro得分为57.2%,与顶尖水平有差距。在通用高阶推理关键测试集中,MiMo-V2.5-Pro表现一般,与最顶级模型存在距离。更重要的是,小米缺乏可复现的硬证据,其展示的成果多为“高光demo”或“实验室showcase”,作为“开源”模型,没有完全可复现、可横向对比的公开标准,细节不公开,demo说服力打折。“harness awareness”说法虽吸引人,但难以判断模型是真正学会管理agent runtime,还是依赖任务设计和评测环境。而且小米高度依赖特定harness,没有自己的工具,若平台策略改变,需重新调整模型。小米开源承诺尚未兑现,V2系列仅V2 Flash开源,V2.5系列“即将全球开源”时间不明,这决定了Token Plan是商业化起点还是营销噱头。MiMo-V2.5和V2.5-Pro的发布是小米的重要技术证明,Token Plan是好的开始,但能否吸引足够开发者,取决于开源承诺、服务稳定性和生态繁荣程度,小米正站在关键十字路口。









