AIPress.com.cn报道
12月24日,据官方消息,通义千问发布了新一代语音合成模型Qwen3-TTS,并同步推出两款核心模型:音色创造模型 Qwen3-TTS-VD-Flash与音色克隆模型 Qwen3-TTS-VC-Flash。相比传统 TTS 产品主要依赖预设音色或简单复刻,Qwen3-TTS 将语音能力进一步扩展到“音色设计”层面。
在音色创造方面,Qwen3-TTS-VD-Flash 支持通过复杂自然语言指令直接定义声音特征。用户不仅可以描述音色本身,还可对韵律、情感、语气、人设等进行精细化控制,实现从“说什么”到“如何说”的全面调控。这种方式使语音生成不再局限于已有音色或固定模板,而是可以按需求“创造声音”。
评测数据显示,在InstructTTS-eval中,Qwen3-TTS的综合表现显著优于 GPT-4o-mini-tts 和 Mimo-audio-7b-instruct;在角色扮演测试中,其表现也超过 Gemini-2.5-pro-preview-tts,体现出更强的可控性和一致性。
在音色克隆能力上,Qwen3-TTS 支持3 秒级音色克隆,并可基于克隆音色生成中文、英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等10 种主流语言。在 MiniMax TTS Multilingual Test Set 上,该模型在多语种内容稳定性和平均词错误率(WER)指标上,整体优于 MiniMax、ElevenLabs 以及 GPT-4o-Audio-Preview。
两款模型均强调高表现力与稳定性。Qwen3-TTS 可根据文本语义自动调整语气与节奏,在长文本、多角色对话等复杂场景中,保持自然、生动的拟人化表达。同时,其文本解析能力覆盖复杂结构和非规范化输入,在实际应用中具备较高鲁棒性。
Qwen3-TTS 支持将已创建的音色进行持久化存储与重复调用,可用于多轮、多角色的长篇对话生成,为数字人、虚拟客服、内容创作等场景提供更灵活的语音底层能力。目前,相关模型已通过阿里云 Model Studio 提供 API 接口,面向开发者开放使用。











