ITBear旗下自媒体矩阵:

小米开源OmniVoice多语言TTS模型:超600种语言支持,语音克隆高效且自然

   时间:2026-04-09 15:41:44 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

小米下一代 Kaldi 团队(k2-fsa)近日正式开源了一款名为 OmniVoice 的超大规模多语言零样本文本转语音(TTS)模型。该模型支持超过 600 种语言,在中英文及多语言基准测试中多项关键指标达到行业领先水平,为语音合成领域带来了重要突破。

在性能表现上,OmniVoice 展现出了显著优势。在 Seed-TTS 中文测试集中,其词错误率(WER)低至 0.84%,而在多语言基准测试中,相似度(SIM-o)和词错误率指标均超越了 ElevenLabs v2 和 MiniMax 等知名商用模型,语音自然度和清晰度表现尤为突出。

合成效率是 OmniVoice 的另一大亮点。该模型的实时因子(RTF)低至 0.025,合成速度比实时需求快 40 倍。这一特性使其能够快速处理长文本语音生成任务,大幅提升用户体验,尤其适用于需要高效语音合成的应用场景。

OmniVoice 的核心架构采用了创新设计。其扩散语言模型风格的离散非自回归架构,可直接从文本生成语音,跳过了传统模型中复杂的中间语义 token 阶段。这种设计不仅简化了流程,还通过全码本随机掩码策略和预训练 LLM 初始化技术,进一步提升了训练效率和语音输出的清晰度与可懂度。

在语音克隆与定制方面,OmniVoice 提供了高度灵活的解决方案。用户仅需提供 3-10 秒的短参考音频,即可实现高品质的零样本语音克隆。模型还支持通过自然语言描述自定义声音属性,包括性别、年龄、音调、口音和方言等,甚至能够生成耳语等特殊语音效果。

针对中文及方言的精准合成需求,OmniVoice 特别优化了非语言符号处理和发音控制功能。模型能够识别并处理如 [laughter] 这样的非语言符号,同时支持通过拼音或音标进行发音纠正,确保语音合成的准确性。

OmniVoice 的最大特色在于其广泛的语言覆盖能力。从主流语种到众多低资源语言,该模型均能高效支持。对于小语种和濒危语言,仅需少量样本即可生成高质量语音,这一特性为语言文化的数字化保护提供了有力支持。

目前,OmniVoice 的代码和预训练模型已在 GitHub 和 Hugging Face 平台开源,开发者可以轻松进行本地部署或集成到各类应用中。项目地址:https://github.com/k2-fsa/OmniVoice

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version