ITBear旗下自媒体矩阵:

小米MiMo-V2.5语音大模型来袭:TTS合成与ASR识别双突破,开启Agent时代新体验

   时间:2026-04-24 09:49:25 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

小米公司今日宣布推出面向智能体时代的全链路语音模型系列——MiMo-V2.5-TTS Series与MiMo-V2.5-ASR。该系列模型突破传统语音技术局限,通过整合语音合成与识别两大核心能力,构建起覆盖输入输出全流程的智能化语音交互体系,为智能设备赋予更自然的人机对话能力。

在语音合成领域,MiMo-V2.5-TTS Series包含三款创新模型。基础版MiMo-V2.5-TTS搭载数十种专业级音色库,支持语速、情感、语调等12维参数的精细调控,可满足有声读物、智能客服等场景需求。VoiceDesign版本通过自然语言指令即可生成全新音色,用户仅需描述"温柔女声"或"沧桑男声"等特征,系统即可在30秒内完成音色建模。VoiceClone版本则突破性实现小样本音色克隆技术,仅需5分钟音频样本即可复现目标音色,同时保持98%的风格指令遵循率。

该系列模型独创的分层指令系统引发行业关注。在处理复杂创作需求时,用户可提交包含角色设定、场景描述、对话指导的三级结构化文本,模型能精准识别各层级指令并动态组合输出。例如在游戏NPC配音场景中,系统可同时保持角色音色统一性与单句表演独立性。更值得关注的是其音频标签技术,允许在文本中嵌入类似"[愤怒][加快语速]"的标记,实现帧级语音控制。

语音识别模型MiMo-V2.5-ASR选择开源路线,其核心技术突破体现在复杂场景适应能力。经实测,该模型在强噪声环境下(信噪比-5dB)仍保持89%的识别准确率,在吴语、粤语等8种方言混合对话场景中错误率低于12%。特别针对中英混合语料(Code-Switch)优化后,模型可自动识别语种切换点,无需预先标注即可实现流畅转录。在专业领域测试中,古诗词、医学术语等知识密集型内容的识别准确率达到94.7%。

技术白皮书显示,ASR模型采用多模态预训练架构,通过融合声学特征与语义信息,在AMI会议数据集上取得14.2%的词错率,刷新行业纪录。其独创的动态标点系统可结合语音停顿与语义逻辑自动插入标点,后处理效率提升60%。目前该模型已支持实时流式识别,端到端延迟控制在300ms以内。

开发者生态建设方面,小米开放平台提供双重接入方案:TTS系列三款模型在MiMo API平台提供限时免费调用服务,配套上线的MiMo Studio可视化工具支持零代码语音创作;ASR模型则通过GitHub开源代码与模型权重,提供PyTorch实现框架及预训练检查点。文档中心显示,当前已有超过2.3万开发者注册使用相关服务,日均处理语音数据量突破1.2PB。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version