滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

小米开源OmniVoice多语言TTS模型：超600种语言支持，语音克隆高效且自然

时间：2026-04-09 15:41:44 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

小米下一代 Kaldi 团队（k2-fsa）近日正式开源了一款名为 OmniVoice 的超大规模多语言零样本文本转语音（TTS）模型。该模型支持超过 600 种语言，在中英文及多语言基准测试中多项关键指标达到行业领先水平，为语音合成领域带来了重要突破。

在性能表现上，OmniVoice 展现出了显著优势。在 Seed-TTS 中文测试集中，其词错误率（WER）低至 0.84%，而在多语言基准测试中，相似度（SIM-o）和词错误率指标均超越了 ElevenLabs v2 和 MiniMax 等知名商用模型，语音自然度和清晰度表现尤为突出。

合成效率是 OmniVoice 的另一大亮点。该模型的实时因子（RTF）低至 0.025，合成速度比实时需求快 40 倍。这一特性使其能够快速处理长文本语音生成任务，大幅提升用户体验，尤其适用于需要高效语音合成的应用场景。

OmniVoice 的核心架构采用了创新设计。其扩散语言模型风格的离散非自回归架构，可直接从文本生成语音，跳过了传统模型中复杂的中间语义 token 阶段。这种设计不仅简化了流程，还通过全码本随机掩码策略和预训练 LLM 初始化技术，进一步提升了训练效率和语音输出的清晰度与可懂度。

在语音克隆与定制方面，OmniVoice 提供了高度灵活的解决方案。用户仅需提供 3-10 秒的短参考音频，即可实现高品质的零样本语音克隆。模型还支持通过自然语言描述自定义声音属性，包括性别、年龄、音调、口音和方言等，甚至能够生成耳语等特殊语音效果。

针对中文及方言的精准合成需求，OmniVoice 特别优化了非语言符号处理和发音控制功能。模型能够识别并处理如 [laughter] 这样的非语言符号，同时支持通过拼音或音标进行发音纠正，确保语音合成的准确性。

OmniVoice 的最大特色在于其广泛的语言覆盖能力。从主流语种到众多低资源语言，该模型均能高效支持。对于小语种和濒危语言，仅需少量样本即可生成高质量语音，这一特性为语言文化的数字化保护提供了有力支持。

目前，OmniVoice 的代码和预训练模型已在 GitHub 和 Hugging Face 平台开源，开发者可以轻松进行本地部署或集成到各类应用中。项目地址：https://github.com/k2-fsa/OmniVoice

更多>同类资讯

AI聊天机器人“知识食粮”从哪来？研究发现近四分之一引言源自新闻报道

04-09

宇树科技R1机器人亮相阿里园区携手阿里跨境电商开启出海新篇章

04-09

谷歌Gemini「notebooks」上线：让AI拥有长效记忆，打造专属知识工作空间

04-09

全球销量前十智能手机iPhone占一半

04-09

华为余承东、何刚入驻小红书

04-09

OpenAI拟向散户开放IPO配售

04-09

宇树最新款机器人R1现身阿里西溪园区，或将成立「树卖通」项目

04-09

Google推进Gemini整合Gmail

04-09

从AI搜索引擎转向AI 智能体：Perplexity AI月收入增长实现跃升

04-09

李佳琦深夜澄清：演讲时口误，是缺席两个月直播

04-09

字节跳动估值飙升至6000亿美元

04-09

2025年顺丰财报透视：转型期亮点与隐忧交织，未来路在何方？

04-09

降价派烧钱抢市场VS降耗派技术筑壁垒：大模型算力之争谁主沉浮？

04-09

阿里“三权分立”式调整：借林俊旸离职契机，重构AI业务新版图

04-09

联想掌舵人杨元庆：从代码世界追梦者到豪掷2亿反哺母校的传奇

04-09

点击查看更多 +

全站最新

B站上线播放页暂停广告：商业化尝试再引热议，理想现实如何平衡？

字节跳动Seeduplex全双工语音模型上线，豆包通话实现边听边讲更自然

A股铝业股集体上涨，和胜股份涨停，明泰铝业逼近涨停

A股异动丨中润光学一度跌近8% 昨日盘中创历史新高股东拟减持

巴基斯坦总理证实：美伊已同意在黎巴嫩及所有地区实施即刻停火

特朗普：《纽约时报》和CNN关于伊朗谈判的十点计划都是虚假报道

热门内容

本栏最新

B站上线播放页暂停广告：商业化尝试再引热议，理想现实如何平衡？

字节跳动Seeduplex全双工语音模型上线，豆包通话实现边听边讲更自然

微亿智造冲刺IPO：大厂撤离高管涉诉，光环背后隐忧待解

小红书深耕“好货”生态：长效经营与线下联动，激活消费新动能

2026年社交电商用户达8.3亿，Z世代成主力，内容驱动模式引领新消费趋势

折扣市场成零售新宠：巨头纷纷入局，消费趋势转变催生新机遇

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.