ITBear旗下自媒体矩阵:

小米开源MiMo-V2.5系列模型,性能超越DeepSeek,首日适配多款芯片引关注

   时间:2026-04-28 20:06:10 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

小米公司近日宣布开源其最新研发的MiMo-V2.5系列大模型,采用MIT协议允许商业应用和二次开发,无需额外授权。该系列包含MiMo-V2.5-Pro和MiMo-V2.5两款模型,具备更强的智能体能力,支持百万级上下文窗口,并在Token使用效率上实现显著提升。

基准测试显示,MiMo-V2.5-Pro在GDPVal-AA、Claw-eval等多项权威评测中超越DeepSeek-V4-Pro和Kimi K2.6等主流模型。该模型采用1.02万亿参数的混合专家架构,其中420亿参数为激活状态,通过混合注意力机制和轻量化多标记预测模块,在长文本处理和复杂任务执行方面表现突出。预训练阶段使用27万亿Token数据,支持原生32K序列长度,上下文扩展能力达100万Token。

技术文档显示,MiMo-V2.5-Pro的注意力机制采用局部滑动窗口与全局注意力6:1的混合模式,窗口大小设定为128Token。通过可学习的注意力池偏置技术,将键值缓存存储空间压缩近7倍,同时保持模型性能。其多标记预测模块采用密集前馈神经网络,使输出吞吐量提升3倍,并加速强化学习部署效率。

同期发布的MiMo-V2.5采用3100亿参数架构,其中150亿参数为激活状态。该模型在48万亿Token数据上训练完成,集成自研视觉和音频编码器,通过轻量化投影模块实现跨模态融合。训练过程分为五个阶段,包括文本预训练、投影层预热、多模态预训练、智能体后训练和强化学习优化,最终将上下文窗口从32K扩展至100万Token。

在生态合作方面,开源首日即完成与阿里平头哥、亚马逊云科技、AMD等7家芯片厂商的适配工作。阿里平头哥基于真武810E芯片实现深度优化,亚马逊云科技通过Trainium2芯片与Neuron SDK组合提供全球服务,AMD则依托ROCm软件栈提供全面支持。百度昆仑芯、燧原科技、沐曦和天数智芯等企业也分别通过算子优化、自研软件栈等方式完成适配。

推理框架支持方面,MiMo-V2.5系列同步完成SGLang和vLLM两大主流框架的Day 0适配。其中vLLM框架与亚马逊Trainium芯片的组合,使模型部署效率得到显著提升,下一代3nm制程Trainium3芯片将进一步释放模型性能潜力。

为推动生态建设,小米推出"MiMo Orbit计划",包含百万亿Token激励和Agent生态共建两个子项目。前者将在30天内免费发放100万亿Token权益,申请通过者可获得最高16亿Credits(价值659元);后者面向Agent框架团队提供Token限免支持和AI Hackathon共创活动,目前已与OpenCode、Hermes Agent等框架达成合作。

行业观察指出,随着大模型开源竞争加剧,芯片适配速度和推理成本优化成为关键指标。小米此次不仅在技术指标上实现突破,更通过生态合作和激励计划构建应用壁垒。其与DeepSeek在开源领域的直接竞争,或将推动整个行业加速技术迭代和成本下降。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version