小米公司今日宣布推出三款全新大模型产品,分别为旗舰基座模型MiMo-V2-Pro、全模态交互模型MiMo-V2-Omni以及语音合成模型MiMo-V2-TTS。这三款模型均针对智能体场景进行深度优化,旨在提升复杂任务处理能力和多模态交互体验。
MiMo-V2-Pro作为核心基座模型,参数量突破1万亿规模,激活参数达420亿,支持百万级上下文窗口。该模型在编程智能、系统设计和任务规划方面展现显著优势,其代码生成能力已接近行业顶尖水平。在OpenClaw智能体框架测试中,该模型可自动完成复杂工作流编排,工具调用准确率较前代提升3倍。定价策略采用阶梯式收费,25.6万上下文内输入成本仅为同类产品的五分之一。
全模态交互模型MiMo-V2-Omni突破传统单模态限制,实现文本、视觉、语音的深度融合。在环境感知层面,该模型可处理超过10小时连续音频,支持多说话人分离和音视频联合推理。实际应用场景中,模型可自主完成电商比价、客服议价等跨平台操作,在WPS生态中已实现文档自动化生成。测试数据显示,其多模态理解能力超越Gemini 3 Pro,接近行业领先水平。
语音合成领域迎来突破性进展,MiMo-V2-TTS通过上亿小时语音数据训练,构建出多维度语音控制体系。该模型支持东北话、粤语等五种方言,可实现角色化语音演绎和高质量歌声合成。技术架构采用自研Audio Tokenizer,通过离散token空间建模保留原始语音细节,使韵律自然度提升40%。在文本理解方面,模型能自动识别标点符号和语气词,无需人工标注即可生成情感丰富的语音输出。
开发平台同步推出MiMo Claw体验模块,用户可通过自然语言指令完成网站搭建、数据抓取等复杂任务。测试案例显示,该模块可在30分钟内自动生成包含实时数据更新的金融网站,支持Python爬虫部署和静态页面生成。为降低开发门槛,小米联合多家智能体框架团队,提供为期一周的免费API接口支持。
技术团队透露,下一代研发将聚焦长周期任务规划和多智能体协同领域。通过整合底层模型、系统权限和生态服务,终端设备有望实现从单一功能执行向环境自适应决策的跨越。此次发布的三款模型已形成完整技术矩阵,为智能设备构建原生操作系统奠定基础。











