ITBear旗下自媒体矩阵:

小米AI实验室推出ZipVoice系列模型 零样本语音合成技术实现新突破

   时间:2025-09-12 20:18:22 来源:凤凰网科技编辑:快讯团队 IP:北京 发表评论无障碍通道
 

小米集团AI实验室新一代Kaldi团队近日宣布,推出基于Flow Matching架构的ZipVoice系列语音合成模型,包含面向单说话人的ZipVoice零样本模型与专为对话场景设计的ZipVoice-Dialog模型。这两款模型通过架构创新,在语音合成的效率与质量上实现了突破性进展。

针对传统零样本语音合成模型普遍存在的参数量庞大、推理速度迟缓等问题,ZipVoice通过优化模型结构,在显著降低参数规模的同时,将合成效率提升至行业领先水平。实验数据显示,该模型在说话人相似度(SIM-o)、词错误率(WER)、UTMOS等三项客观指标,以及CMOS、SMOS两项主观评价指标上,均达到当前零样本语音合成技术的最优水准,实现了"小体积、高精度"的平衡。

面向对话场景的ZipVoice-Dialog模型则攻克了多说话人切换的技术难题。该模型突破了传统对话语音合成在稳定性和实时性方面的限制,能够在单句文本中精准还原不同说话人的音色特征,并实现自然流畅的语音切换。这种技术特性使其成为AI播客、智能客服等需要多角色语音交互场景的核心支撑。

与单说话人语音合成相比,对话语音合成需要同时处理音色分离、语音过渡、情感表达等多重挑战。ZipVoice-Dialog通过创新的Flow Matching架构,在保持低参数量的前提下,实现了对话场景下语音合成的稳定性和自然度,为动态对话内容的语音生成提供了高效解决方案。

据团队介绍,ZipVoice系列模型已通过多维度测试验证,其轻量化设计使部署成本降低40%以上,推理速度提升2-3倍。该技术成果不仅推动了语音合成领域的技术演进,更为实时语音交互类应用开辟了新的发展空间。

举报 0 收藏 0 打赏 0评论 0
 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version