ITBear旗下自媒体矩阵:

小米OmniVoice多语言语音克隆TTS模型登场,极简架构搞定数百语种合成

   时间:2026-05-07 18:14:22 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

小米AI实验室新一代Kaldi团队近日发布了一项突破性成果——OmniVoice语音克隆TTS模型。该模型不仅在中英文语音合成领域达到行业顶尖水平,更在多语言任务中展现出超越商用系统的性能,成为全球首个支持数百种语言的语音合成解决方案。其核心优势在于极简的模型架构设计,仅通过单个双向Transformer网络实现文本到语音的直接转换,摒弃了传统模型中复杂的文本建模、混合结构及多层级token预测环节,成为目前最简单的非自回归TTS模型。

在性能表现上,OmniVoice显著优于同类主流模型。其训练效率达到行业领先水平,可在一天内完成10万小时数据的训练任务;推理速度方面,基于PyTorch框架即可实现40倍实时处理,能够轻松适配各类应用场景。这一突破得益于两项关键技术设计:全码本随机掩蔽策略通过动态数据增强提升训练效率,而引入大语言模型作为预训练参数则首次在非自回归架构中实现了语音可懂度的质的飞跃,有效解决了多音字识别等传统难题。

多语言测试数据充分验证了模型的泛化能力。在仅使用开源数据训练的条件下,24种语言测试中语音相似度和可懂度均超越主流商用系统;102种语言测试中可懂度指标接近真实语音水平;对于训练数据不足10小时的稀缺语种,仍能保持高质量合成效果。这种特性大幅降低了低资源语种语音技术的开发门槛,为濒危语言保护等场景提供了新的技术路径。

该模型的创新功能体系进一步拓展了应用边界。其自定义音色系统突破传统依赖参考音频的限制,用户可通过设定性别、年龄、方言等属性参数直接生成目标音色,甚至支持耳语等特殊风格模拟。针对实际场景中常见的带噪音频问题,模型内置的噪声过滤模块可自动提取纯净音色特征,确保嘈杂环境录制的音频仍能实现高质量克隆。在情感表达层面,通过插入笑声、叹气等语气符号,合成语音的自然度得到显著提升;针对中英文专有名词发音问题,用户可通过简易标注实现精准纠错,大幅提升专业场景的适用性。

技术团队透露,OmniVoice的研发聚焦于解决语音合成领域的三大核心矛盾:模型复杂度与合成效率的平衡、多语言支持与资源消耗的优化、泛化能力与专业场景的适配。通过架构创新与算法优化,该模型在保持极简结构的同时,实现了跨语言、跨场景的通用化能力,为语音交互技术的普及化应用奠定了重要基础。目前相关技术已进入工程化落地阶段,预计将在智能客服、教育辅助、无障碍沟通等领域产生深远影响。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version