小米下一代 Kaldi 团队(k2-fsa)近日正式开源了一款名为 OmniVoice 的超大规模多语言零样本文本转语音(TTS)模型。该模型支持超过 600 种语言,在中英文及多语言基准测试中多项关键指标达到行业领先水平,为语音合成领域带来了重要突破。
在性能表现上,OmniVoice 展现出了显著优势。在 Seed-TTS 中文测试集中,其词错误率(WER)低至 0.84%,而在多语言基准测试中,相似度(SIM-o)和词错误率指标均超越了 ElevenLabs v2 和 MiniMax 等知名商用模型,语音自然度和清晰度表现尤为突出。
合成效率是 OmniVoice 的另一大亮点。该模型的实时因子(RTF)低至 0.025,合成速度比实时需求快 40 倍。这一特性使其能够快速处理长文本语音生成任务,大幅提升用户体验,尤其适用于需要高效语音合成的应用场景。
OmniVoice 的核心架构采用了创新设计。其扩散语言模型风格的离散非自回归架构,可直接从文本生成语音,跳过了传统模型中复杂的中间语义 token 阶段。这种设计不仅简化了流程,还通过全码本随机掩码策略和预训练 LLM 初始化技术,进一步提升了训练效率和语音输出的清晰度与可懂度。
在语音克隆与定制方面,OmniVoice 提供了高度灵活的解决方案。用户仅需提供 3-10 秒的短参考音频,即可实现高品质的零样本语音克隆。模型还支持通过自然语言描述自定义声音属性,包括性别、年龄、音调、口音和方言等,甚至能够生成耳语等特殊语音效果。
针对中文及方言的精准合成需求,OmniVoice 特别优化了非语言符号处理和发音控制功能。模型能够识别并处理如 [laughter] 这样的非语言符号,同时支持通过拼音或音标进行发音纠正,确保语音合成的准确性。
OmniVoice 的最大特色在于其广泛的语言覆盖能力。从主流语种到众多低资源语言,该模型均能高效支持。对于小语种和濒危语言,仅需少量样本即可生成高质量语音,这一特性为语言文化的数字化保护提供了有力支持。
目前,OmniVoice 的代码和预训练模型已在 GitHub 和 Hugging Face 平台开源,开发者可以轻松进行本地部署或集成到各类应用中。项目地址:https://github.com/k2-fsa/OmniVoice









