ITBear旗下自媒体矩阵:

小米MiMo-V2.5再升级:TTS系列精细控声 ASR开源应对复杂场景

   时间:2026-04-24 10:22:35 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

小米技术团队在完成MiMo-V2.5系列大模型公测后,迅速推进语音技术生态建设,于近日同步推出MiMo-V2.5-TTS语音合成与MiMo-V2.5-ASR语音识别两大子系统,构建起覆盖语音输入输出的完整技术链条。此次发布的语音解决方案包含六项核心突破,其中TTS系统通过创新的声音控制机制重新定义了语音交互体验。

在语音合成领域,新发布的TTS系列包含三个差异化模型。基础版MiMo-V2.5-TTS集成超过20种专业级音色库,用户可直接调用包含新闻播报、客服对话等场景的预设音色,同时支持通过自然语言指令动态调整语速、音高及情感强度。创新模型MiMo-V2.5-TTS-VoiceDesign突破传统音色生成模式,仅需输入"30岁女性,温柔知性"等文本描述即可自动生成全新音色,整个过程无需提供任何音频样本。针对高精度复刻需求,MiMo-V2.5-TTS-VoiceClone模型展现出强大实力,通过分析3-5秒的参考音频,不仅能完美复现原声特征,还可保持对情感指令的响应能力,官方测试中成功实现了"愤怒中带着哭腔"等复合情绪表达。

语音识别系统MiMo-V2.5-ASR则聚焦复杂场景适应性,其开源版本已支持包括吴语、粤语在内的8种中文方言识别,在中英文混合对话场景中准确率突破92%。针对嘈杂环境,模型通过引入多模态降噪算法,在80分贝背景噪音下仍保持85%以上的识别精度。特别设计的多人对话模式可自动区分说话人,并实时生成带标点符号的转写文本,经实测在4人交叉对话场景中,端到端响应延迟控制在300毫秒以内。

技术实现层面,TTS系统采用分层声学编码架构,将音色特征与内容表达解耦处理,既保证音色生成质量,又提升情感控制的响应速度。ASR系统则创新性地融合了自监督学习与流式处理技术,通过40万小时多模态数据训练,使模型具备上下文语义理解能力。开发者可通过GitHub及HuggingFace平台获取ASR系统的完整代码与预训练权重,TTS系列则已在小米自主研发的MiMo Studio平台开放在线体验通道。

据技术文档披露,小米后续研发将聚焦两大方向:一是拓展音频生成维度,开发支持环境音效与音乐创作的通用音频模型;二是深化语义理解能力,构建可处理长文本上下文的记忆机制。此次发布的语音系统已与小米智能生态完成初步对接,预计将在智能客服、车载语音、无障碍交互等领域率先落地应用。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version