小米官方近日宣布,其MiMo-V2.5系列API价格迎来永久性下调,最高降幅达到99%,且不再根据上下文窗口长度进行差异化定价。这一举措标志着小米在AI模型服务领域迈出了重要一步,旨在通过技术优化降低成本,为开发者提供更具竞争力的价格方案。
据小米MiMo项目负责人罗福莉透露,此次价格调整的核心驱动力来自技术层面的突破。团队通过优化推理框架,引入了针对SWA(稀疏窗口注意力)的分层KV缓存机制,使缓存Token容量提升5倍,直接降低了80%的缓存成本。Hybrid模型中多个Full Attention模块的缓存读取重叠设计,进一步压缩了实际运算开销。这些技术改进共同构成了价格下调的基础。
对于输入未命中缓存和输出场景,小米将相关价格下调了60%至80%。这一调整得益于MiMo-V2.5-Pro模型独特的1:7 Full:SWA稀疏比架构——该模型通过70层设计实现了与10层GQA模型相当的预填充计算量,显著降低了推理成本。罗福莉强调,小米的原始推理成本已低于行业平均水平,此次降价是将技术优势直接转化为开发者福利的决策。
尽管价格大幅下调,小米的生产推理引擎仍保持接近满负荷运行状态。罗福莉表示,公司通过精细化运营和持续的技术优化,基本维持了收支平衡。她特别指出,此前建议行业避免"盲目降价",正是因为多数企业缺乏类似小米的模型架构和推理优化能力,难以在降价后保证盈利。此次调整反映了小米对自身技术实力的信心。
从行业影响来看,小米认为合理定价的模型API将激发持续、大规模的推理需求。这种需求不仅会推动AI基础设施产业链的发展,涵盖芯片、服务器、液冷系统等多个环节,更可能成为重新评估AI硬件价值的战略支点。长期而言,这将为训练和推理管线注入更廉价的算力资源,促进全球通用人工智能技术向多元化方向演进。
关于技术细节,小米承诺将在后续发布的专题博客中进行深入解析。此次价格调整已正式生效,开发者可通过小米开放平台获取最新服务方案。










