小米近日宣布,其MiMo-V2.5大模型推理系统在全链路优化方面取得关键技术突破,同时宣布旗下相关API服务价格大幅下调。此次调整中,MiMo-V2.5系列API最高降幅达99%,永久生效,旨在降低企业及开发者使用先进AI技术的门槛。
技术层面,小米通过重构Hybrid SWA+MoE+多模态架构的完整推理栈,实现了存储效率的显著提升。其独创的KVCache压缩技术将存储占用压缩至行业同类方案的约七分之一,有效降低了长序列推理的计算成本。这一优化在保持模型性能不变的前提下,使硬件资源利用率大幅提升,推理吞吐量增加的同时延迟显著降低。
据小米工程师介绍,该方案通过算法与工程协同创新,解决了多模态架构下资源分配的复杂难题。例如,在处理图文混合数据时,系统可动态调配计算资源,确保不同模态的推理效率达到最优平衡。这一特性使得MiMo-V2.5在智能客服、内容生成等场景中表现出更强的适应性。
此次价格调整与技术升级形成联动效应。小米表示,硬件成本的降低与推理效率的提升,为终端服务降价提供了空间。作为行业内首个实现该复合架构大规模工程落地的案例,MiMo-V2.5的优化方案或将推动AI大模型应用从高端场景向普惠化发展,为中小企业提供更具性价比的技术选择。















