千问团队近日宣布,其自主研发的Qwen3-TTS多码本全系列语音生成模型正式开源,包含1.7B参数和0.6B参数两个版本。其中1.7B版本在性能表现上达到行业顶尖水平,0.6B版本则实现了性能与效率的平衡优化。该系列模型已通过GitHub平台开放下载,同时提供Qwen API接口供开发者体验。
作为新一代语音生成技术,Qwen3-TTS突破性地采用离散多码本语言模型架构,通过自研的Qwen3-TTS-Tokenizer-12Hz语音编码器,实现了对语音信号的高效压缩与语义建模。该技术不仅完整保留了语气、语调等副语言信息,还能在非扩散变换器(非DiT)架构下完成高保真语音重建。实验数据显示,其端到端合成延迟最低可达97毫秒,支持在输入单个字符后立即生成音频流。
在功能实现方面,该模型系列展现出三大核心优势:其一,支持跨语言音色克隆与创造,覆盖中、英、日、韩等十种主流语言及多种方言;其二,具备智能语音控制能力,可通过自然语言指令调节音色、情感、节奏等参数;其三,创新采用Dual-Track双轨建模技术,使单个模型同时兼容流式与非流式生成模式。特别在长语音生成场景中,模型可一次性合成10分钟音频,中英文混合语料的词错率分别控制在2.36%和2.81%。
技术评估显示,Qwen3-TTS在多个专项任务中达到国际领先水平。在音色创造任务中,其VoiceDesign模块在指令遵循准确率和生成表现力方面超越MiniMax闭源模型;在音色控制任务中,Instruct模块取得75.4%的评估分数,同时保持2.34%的平均词错率;在跨语言音色克隆任务中,VoiceClone模块在10个语种测试集中取得1.835%的平均词错率和0.789的说话人相似度。这些指标均优于同期发布的CosyVoice3等开源模型。
语音编码器的性能验证同样亮眼。在LibriSpeech标准测试集中,Qwen-TTS-Tokenizer的感知语音质量评估(PESQ)得分达宽带3.21/窄带3.68,短时客观可懂度(STOI)达0.96,语音质量评估(UTMOS)达4.16,说话人相似度评估达0.95。这些数据表明,该编码器在语音重构质量、信息保留完整度等关键指标上均处于行业前沿。
目前,开发者可通过GitHub获取完整模型代码与训练数据集,或直接调用Qwen API进行快速集成。该系列模型的开源将显著降低语音生成技术的研发门槛,为智能客服、有声内容制作、无障碍交互等领域提供新的技术解决方案。据团队透露,后续将持续优化模型在低资源设备上的部署效率,并扩展更多语言的支持能力。






