滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

小米OmniVoice多语言语音克隆TTS模型登场，极简架构搞定数百语种合成

时间：2026-05-07 18:14:22 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

小米AI实验室新一代Kaldi团队近日发布了一项突破性成果——OmniVoice语音克隆TTS模型。该模型不仅在中英文语音合成领域达到行业顶尖水平，更在多语言任务中展现出超越商用系统的性能，成为全球首个支持数百种语言的语音合成解决方案。其核心优势在于极简的模型架构设计，仅通过单个双向Transformer网络实现文本到语音的直接转换，摒弃了传统模型中复杂的文本建模、混合结构及多层级token预测环节，成为目前最简单的非自回归TTS模型。

在性能表现上，OmniVoice显著优于同类主流模型。其训练效率达到行业领先水平，可在一天内完成10万小时数据的训练任务；推理速度方面，基于PyTorch框架即可实现40倍实时处理，能够轻松适配各类应用场景。这一突破得益于两项关键技术设计：全码本随机掩蔽策略通过动态数据增强提升训练效率，而引入大语言模型作为预训练参数则首次在非自回归架构中实现了语音可懂度的质的飞跃，有效解决了多音字识别等传统难题。

多语言测试数据充分验证了模型的泛化能力。在仅使用开源数据训练的条件下，24种语言测试中语音相似度和可懂度均超越主流商用系统；102种语言测试中可懂度指标接近真实语音水平；对于训练数据不足10小时的稀缺语种，仍能保持高质量合成效果。这种特性大幅降低了低资源语种语音技术的开发门槛，为濒危语言保护等场景提供了新的技术路径。

该模型的创新功能体系进一步拓展了应用边界。其自定义音色系统突破传统依赖参考音频的限制，用户可通过设定性别、年龄、方言等属性参数直接生成目标音色，甚至支持耳语等特殊风格模拟。针对实际场景中常见的带噪音频问题，模型内置的噪声过滤模块可自动提取纯净音色特征，确保嘈杂环境录制的音频仍能实现高质量克隆。在情感表达层面，通过插入笑声、叹气等语气符号，合成语音的自然度得到显著提升；针对中英文专有名词发音问题，用户可通过简易标注实现精准纠错，大幅提升专业场景的适用性。

技术团队透露，OmniVoice的研发聚焦于解决语音合成领域的三大核心矛盾：模型复杂度与合成效率的平衡、多语言支持与资源消耗的优化、泛化能力与专业场景的适配。通过架构创新与算法优化，该模型在保持极简结构的同时，实现了跨语言、跨场景的通用化能力，为语音交互技术的普及化应用奠定了重要基础。目前相关技术已进入工程化落地阶段，预计将在智能客服、教育辅助、无障碍沟通等领域产生深远影响。

更多>同类资讯

谷歌内测AI新宠“Remy”：深度整合服务，或成用户全能生活助手

05-07

马斯克宣布xAI解散并更名SpaceXAI，SpaceX与Anthropic达成算力合作协议

05-07

马斯克解散xAI：团队清零算力转租，AI棋局再变新走向

05-07

SpaceX与Anthropic携手：超22万颗GPU算力助力AI服务全面升级

05-07

马斯克豪掷1200亿美元建AI芯片工厂，目标年产1太瓦计算力挑战行业格局

05-07

谷歌叫停Project Mariner项目，跨网页自动化技术融入核心AI产品

05-07

SpaceX与Anthropic携手：Colossus 1算力助力AI服务升级扩容

05-07

Anthropic开发者大会火力全开：Claude升级算力扩容，智能体能力再进化

05-07

马斯克确认xAI解散并整合至SpaceXAI 22万块GPU算力助力Anthropic升级

05-07

资金流向高弹性赛道，人形机器人从预期走向订单，机器人板块布局正当时

05-07

2026人形机器人量产元年：数据短板补齐，智能伙伴走进生活还有多远？

05-07

科技启航未来，北海移动无人机展助力低空经济与人才共成长

05-07

抖音旗下火山引擎苏州布局新公司注册资本千万深耕科技领域

05-07

马斯克豪掷1200亿美元建AI芯片工厂，欲以每年1太瓦算力领跑行业

05-07

马斯克宣布xAI并入SpaceX并更名两大AI巨头携手布局太空算力

05-07

点击查看更多 +

全站最新

马斯克勾勒未来图景：机器人创富太空掘金，多领域变革浪潮来袭

永辉豪掷60亿学胖东来引客流暴涨，名创优品利润却遭腰斩成背后隐忧

抖音旗下火山引擎于苏州布局新科技公司注册资本达千万多元

马斯克宣布xAI解散独立身份，将变身SpaceXAI并推进太空算力布局

英飞凌2026财年第二季度营收38.12亿欧元，上调全年业绩预期并调整组织架构

米哈游全资成立新公司注册资本千万聚焦游戏与科技开发

热门内容

本栏最新

马斯克勾勒未来图景：机器人创富太空掘金，多领域变革浪潮来袭

永辉豪掷60亿学胖东来引客流暴涨，名创优品利润却遭腰斩成背后隐忧

抖音旗下火山引擎于苏州布局新科技公司注册资本达千万多元

马斯克宣布xAI解散独立身份，将变身SpaceXAI并推进太空算力布局

48天8万锁单！新一代SU7杀入20-30万纯电市场，权益交付双升级成黑马

雷军再出奇招！小米汽车展厅摒弃美女模特创新引流成焦点

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.