近日,语音生成领域迎来重要进展,Qwen3-TTS全家桶正式开源上线,为开发者与用户带来功能全面的语音生成解决方案。该系列模型由Qwen团队开发,支持音色克隆、音色创造、超高质量拟人化语音生成,以及基于自然语言描述的语音控制,覆盖从创作到应用的完整需求。
技术层面,Qwen3-TTS通过创新的多码本语音编码器Qwen3-TTS-Tokenizer-12Hz,实现了对语音信号的高效压缩与精准表征。这一设计不仅完整保留了副语言信息(如语调、重音)和声学环境特征,还通过轻量级非DiT架构实现高速、高保真的语音还原。其Dual-Track双轨建模技术进一步优化了生成效率,首包音频的响应时间缩短至仅需一个字符的输入,显著提升了实时交互体验。
开源模型包含1.7B和0.6B两种参数规模,满足不同场景需求。1.7B版本以极致性能见长,具备强大的控制能力,可精准匹配复杂指令;0.6B版本则在性能与效率间取得平衡,适合资源受限的轻量化应用。模型支持10种主流语言(包括中文、英文、日语、韩语等)及多种方言音色,覆盖全球用户需求,为跨语言应用提供技术支撑。
在功能扩展上,Qwen3-TTS展现出强大的上下文适应能力。模型可根据文本语义和用户指令动态调整语气、节奏与情感表达,例如将陈述句转化为疑问语气,或通过语速变化传递紧迫感。其对输入文本噪声(如错别字、标点缺失)的鲁棒性显著提升,确保在非理想条件下仍能生成稳定、自然的语音输出。目前,该系列模型已通过GitHub开源,并开放Qwen API接口供开发者快速集成。








