滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

小米MiMo-V2.5系列大揭秘：全链路优化技术细节首公开，推理成本大降

时间：2026-05-31 04:27:10 来源：快讯编辑：快讯 IP：北京 发表评论无障碍通道

小米近日宣布，其MiMo-V2.5系列API完成永久性价格调整，最高降幅达99%，且不限制输入长度。这一举措的背后，是该团队在推理系统全链路优化方面取得的重大突破。此次降价不仅让用户直接受益，更标志着小米在大模型推理技术领域实现了关键性进展。

技术突破与工程落地之间存在显著鸿沟。初期主流开源框架对SWA的支持存在缺陷，实质上是以存储完整KVCache的代价兼容SWA模式，导致理论收益难以兑现。小米团队通过系统性重构推理栈，从KVCache管理、分级缓存、前缀缓存到调度策略与Prefill/Decode链路进行全面优化。其中，KVCache双池分治设计将存储拆分为Full KV Pool与SWA KV Pool，前者按需增长、长期保存，后者采用环形缓冲区实现窗口级独立淘汰，使存储效率提升约7倍。前缀缓存树重构则通过引入"窗口安全长度"匹配规则、绑定淘汰路径与请求生命周期、支持独立淘汰策略，将线上前缀缓存命中率提升至平均93%，高频用户超过95%。

针对用户对话间隔导致的缓存成本问题，小米自研GCache三级缓存系统实现KVCache在GPU显存、CPU内存和NVMe SSD间的自动流转。该系统通过RDMA通信实现170GB/s读吞吐和280μs延迟，结合SWA的极小存储占用，使相同成本下可承载缓存量成倍提升。在调度优化方面，团队实现KVCache亲和调度与计算量感知优先调度，使L2缓存命中率提升25%，TTFT P90降低30%。Prefill链路通过缩减Expert Parallelism至原先1/2、采用三级长度分桶策略，实现端到端性能提升40%。

Decode阶段优化聚焦显存利用率提升。通过支持SWA的KVCache优化使有效容量提升近5倍，结合CUDA Graph显存调优与PD分离预分配优化，单节点并发能力显著增强。MiMo-V2.5原生支持的3层MTP（Multi-Token Prediction）加速输出技术，使前128 token加速比达2.3倍，128-256 token达1.5倍。在多模态处理方面，团队实现视觉、音频、视频跨模态理解的并行化处理：Encoder支持跨请求组Batch，图片预处理迁移至GPU，视频解码采用多chunk并行处理，使1小时视频端到端延时从156秒降至23秒，整体Encoder吞吐提升至2倍。

这项覆盖Hybrid SWA+MoE+多模态组合架构的大规模工程实践，通过系统性优化将理论效率优势转化为真实生产环境收益。小米已将部分优化成果通过PR形式回馈SGLang开源社区，并计划持续推进更多开源计划，旨在降低工程优化门槛，推动复合架构的广泛应用。此次API降价正是技术突破的直接体现，用户将以更低成本获得更高性能的模型服务。

更多>同类资讯

联想百应NUC AI Max+395工作站开箱：金属机身极客风，接口丰富性能强

06-22

京东全球首开源全栈实时视频交互模型JoyAI-VL-Interaction 助力开发者打造实景AI助手

06-22

雷军刘震云对谈AI：能辅助创作难替代核心价值，创新仍是人类专属

紧接着他也点明了AI的底层局限，AI所有产出依赖的大数据本质上全是沉淀下来的过往知识，不管对创作者还是企业家来说，最核心的能力永远是创新，而创新恰恰是要在过去的基础上，造出原本完全不存在的全新事物，这部分能…

06-22

亚马逊AI主管：已就向外部出售实体Trainium芯片进行商谈

06-22

智谱盘中总市值突破1万亿港元，年内涨超1900%

06-22

雷军再谈1300公里只充一次电争议：言论被断章取义很无奈

06-22

小米YU7 GT达成全球首个纽北自动驾驶圈速纪录

06-22

徐洁云回应雷军过早摆拍：工作之余拍Vlog已经两年了

06-22

一个程序员的自白：用10年搭起的三根职业支柱，全要倒了

06-22

多款电脑机型近一月上涨千元！经销商：根本不敢囤货

06-22

豆包App灰测打车功能，由曹操出行提供服务

06-22

雷军再谈与董明珠打赌：只是开玩笑，没想到被激怒了

06-22

雷军回应经常直播：清者自清不管用了

06-22

雷军的真实感快过期了

06-22

家电ETF博时159730开盘微涨0.30% 格力海尔等重仓股表现分化

来源：新浪基金∞工作室 6月22日，家电ETF博时（159730）开盘涨0.30%，报1.015元。家电ETF博时（159730）重仓股方面，格力电器开盘涨0.03%，美的集团跌0.86%，三花智控跌0.13…

06-22

点击查看更多 +

全站最新

雷军刘震云对谈AI：能辅助创作难替代核心价值，创新仍是人类专属

未来外贸企业新格局：获客、信任、经营能力成制胜关键要素

零跑三款C系列新车上市，以豪华配置重塑主流新能源家用SUV新格局

新款兰博基尼Revuelto SV或年内亮相赛道性能升级谍照曝光

比亚迪大唐强势登场，纯电续航亮眼，增程大车市场或迎新变局

比亚迪腾势N8L闪充版明日上市，大六座豪华SUV配刀片电池与AI座舱

热门内容

本栏最新

雷军刘震云对谈AI：能辅助创作难替代核心价值，创新仍是人类专属

海清智元6月22日港交所主板上市，首挂涨幅亮眼市值超200亿港元

黄仁勋“自然亲民”与雷军“设计亲民”：AI时代下的企业家形象之辨

喜欢合资轿车别错过！这三款车配置足舒适佳还省油，闭眼入不踩雷

暑期回国研学新选择：北上深杭科技之旅，让孩子边玩边学收获满满

科大讯飞Fika阅读器：轻薄机身搭配优质墨水屏，开启舒适便捷阅读新体验

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.