小米集团AI实验室新一代Kaldi团队近日宣布,推出基于Flow Matching架构的ZipVoice系列语音合成模型,包含面向单说话人的ZipVoice零样本模型与专为对话场景设计的ZipVoice-Dialog模型。这两款模型通过架构创新,在语音合成的效率与质量上实现了突破性进展。
针对传统零样本语音合成模型普遍存在的参数量庞大、推理速度迟缓等问题,ZipVoice通过优化模型结构,在显著降低参数规模的同时,将合成效率提升至行业领先水平。实验数据显示,该模型在说话人相似度(SIM-o)、词错误率(WER)、UTMOS等三项客观指标,以及CMOS、SMOS两项主观评价指标上,均达到当前零样本语音合成技术的最优水准,实现了"小体积、高精度"的平衡。
面向对话场景的ZipVoice-Dialog模型则攻克了多说话人切换的技术难题。该模型突破了传统对话语音合成在稳定性和实时性方面的限制,能够在单句文本中精准还原不同说话人的音色特征,并实现自然流畅的语音切换。这种技术特性使其成为AI播客、智能客服等需要多角色语音交互场景的核心支撑。
与单说话人语音合成相比,对话语音合成需要同时处理音色分离、语音过渡、情感表达等多重挑战。ZipVoice-Dialog通过创新的Flow Matching架构,在保持低参数量的前提下,实现了对话场景下语音合成的稳定性和自然度,为动态对话内容的语音生成提供了高效解决方案。
据团队介绍,ZipVoice系列模型已通过多维度测试验证,其轻量化设计使部署成本降低40%以上,推理速度提升2-3倍。该技术成果不仅推动了语音合成领域的技术演进,更为实时语音交互类应用开辟了新的发展空间。