近期,AI大模型领域的价格战再度升级。继DeepSeek宣布其V4 Pro模型永久降价后,小米迅速跟进,对其MiMo-V2.5系列API实施大幅降价,最高降幅达99%。这一举动不仅引发了海外开发者社区的热烈讨论,更让此前押注Token价格上涨的投资者措手不及。
小米此次降价策略的核心在于缓存命中机制。以MiMo-V2.5-Pro为例,当输入请求命中缓存时,价格可低至每百万Tokens约0.025元;若未命中缓存,则维持每百万Tokens3元的输入价格和6元的输出价格。这种差异化定价模式,使得高频、多轮、长上下文的应用场景能够显著受益,而缓存命中率较低的应用则难以享受极低价格。与此同时,小米还优化了Token Plan计费体系,在保持月费不变的情况下,将可用额度提升至原来的5至8倍,进一步降低了开发者的使用成本。
DeepSeek的降价路径与小米如出一辙。从4月下旬的预览版发布,到V4-Pro的临时折扣转为永久降价,其输入缓存命中价格最终被压低至0.025元每百万Tokens。随着小米的跟进,国产大模型的缓存命中输入价格已形成新的基准线。这种价格策略的背后,是大模型应用场景从聊天向工作任务的转变。在Agent、代码助手和长上下文应用中,大量重复内容如系统提示词、项目代码、API文档等可通过缓存机制大幅降低推理成本,从而吸引更多开发者将高频应用迁移至这些平台。
小米的降价举措与其大模型负责人罗福莉此前的表态形成鲜明对比。一个月前,她曾公开反对无成本支撑的Token价格战,认为第三方Agent框架的粗放管理可能导致平台成本失控。然而,小米此次降价并非盲目跟风,而是基于其工程能力的突破。据公告披露,小米技术团队通过优化SGLang HiCache的KV Cache多级存储搬运机制,将数据搬运量降至优化前的近七分之一,同时将可缓存Token数量提升至近五倍。专家并行方案和输入长度分桶策略的优化,也显著提升了集群输入吞吐能力。这些工程改进为低价策略提供了可持续的支撑。
价格战的背后,是不同类型企业的战略博弈。对于拥有手机、汽车、IoT等多元业务的小米而言,大模型服务可视为AI生态入口,无需过度依赖短期API收入。这种战略耐心使其能够承受更长的投入周期,而纯AI模型公司或中小厂商则可能因缺乏主业输血和工程实力而难以跟进。DeepSeek的降价已对部分海内外模型造成冲击,小米的加入将进一步压缩中小服务商的生存空间,迫使其转向垂直细分领域或调整产品定位。
随着推理成本持续下探,AI行业的竞争焦点正从单纯的价格转向综合实力。当Token价格接近物理成本时,模型质量、Agent适配性、开发者工具、生态绑定能力以及服务稳定性将成为新的竞争维度。这场由工程能力驱动的价格战,不仅在筛选市场参与者,更在重新定义AI普及的门槛——只有同时具备技术实力和战略耐心的企业,才能在这场变革中占据先机。






