近日,一款名为Qwen3-TTS的全系列语音生成模型正式开源上线,为全球语音技术应用领域带来新的突破。该模型由专业团队精心研发,推出1.7B和0.6B两种不同尺寸版本,其中1.7B版本侧重于追求极致性能与强大控制能力,0.6B版本则更注重平衡性能与效率,以满足不同场景下的应用需求。
Qwen3-TTS具备强大的多语言支持能力,涵盖中文、英文、日语、韩语、德语、法语等10种主流语言,同时还支持多种方言音色,能够充分满足全球范围内的多样化应用需求。在功能方面,该模型全面支持音色克隆、音色创造以及超高质量的拟人化语音生成。用户可以通过自然语言指令轻松驱动语音生成过程,灵活调控音色、情感、韵律等声学属性,实现个性化的语音输出。
值得一提的是,Qwen3-TTS拥有出色的上下文理解能力。它能够根据指令和文本语义自适应地调整语气、节奏与情感表达,即使在输入文本存在噪声的情况下,也能保持较高的鲁棒性,确保生成语音的质量和稳定性。这一特性使得该模型在实际应用中更加可靠,能够适应各种复杂的环境和场景。
在技术架构上,Qwen3-TTS采用了创新的Dual-Track混合流式生成架构。这一架构使得单模型能够同时兼容流式与非流式生成,大大提高了生成效率。在实际应用中,最快可在输入单字后即刻输出音频首包,端到端合成延迟低至97ms,完全能够满足实时交互的需求,为用户带来更加流畅、自然的语音交互体验。
在性能表现方面,Qwen3-TTS系列模型也展现出了卓越的实力。Qwen3-TTS-VoiceDesign在InstructTTS-eval评测中,指令遵循能力和表现力超越了MiniMax-Voice-Design和其他开源模型,彰显了其在语音生成领域的领先地位。Qwen3-TTS-Instruct具备单人多语言泛化能力,平均词错率仅为2.34%,同时能够保持出色的音色风格控制能力,在InstructTTS-eval评测中得分达到75.4%,并且在长语音生成方面表现卓越,10分钟语音中英词错率分别为2.36%和2.81%。Qwen3-TTS-VoiceClone在中英文克隆稳定性、多语种测试集平均词错误率和说话人相似度等关键指标上,也超越了MiniMax和ElevenLabs等知名模型。










