ITBear旗下自媒体矩阵:

通义千问Qwen3-TTS语音合成模型发布:3秒克隆音色,还能定制专属声音

   时间:2025-12-25 01:17:36 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

通义千问近日正式推出新一代语音合成技术Qwen3-TTS,并同步上线两款创新模型:音色创造模型Qwen3-TTS-VD-Flash与音色克隆模型Qwen3-TTS-VC-Flash。这项突破性技术将传统语音合成从“复刻声音”升级为“设计声音”,为用户提供前所未有的语音创作自由度。

在音色设计领域,Qwen3-TTS-VD-Flash实现了自然语言驱动的精细化控制。用户可通过文本指令同时调节音色基底、情感表达、语速节奏甚至角色特征,例如指定“带有磁性嗓音的年轻男性用欢快语气讲述童话故事”。这种多维调控能力使语音生成突破了预设音色的限制,真正实现“按需定制”。第三方评测显示,该模型在InstructTTS-eval基准测试中综合得分领先GPT-4o-mini-tts和Mimo-audio-7b-instruct,角色扮演场景下的表现更超越Gemini-2.5-pro-preview-tts。

针对音色克隆需求,Qwen3-TTS-VC-Flash展现出惊人的技术突破。仅需3秒原始音频样本,即可完成高保真音色克隆,并支持中、英、日、韩、法、德、西、意、葡、俄等十种语言的跨语种输出。在MiniMax多语种测试集中,该模型在语音稳定性和词错误率(WER)两项核心指标上均优于MiniMax、ElevenLabs及GPT-4o-Audio-Preview等主流方案。

技术团队特别强化了模型的场景适应能力。通过语义理解引擎,系统能自动匹配文本情绪调整语音特征,在长篇叙述或多人对话场景中保持自然流畅的拟人化表达。其文本解析模块可处理复杂句式和非规范输入,确保在真实应用环境中保持稳定输出。例如在数字人直播场景中,系统能同时管理多个角色的语音特征,实现无缝切换。

为提升实用价值,开发团队构建了音色管理系统,支持用户将定制音色保存至云端库,实现跨项目复用。这项功能特别适用于需要持续语音输出的场景,如虚拟客服的长期服务或系列有声内容的制作。目前相关技术已通过阿里云Model Studio开放API接口,开发者可快速集成至各类应用中,为智能交互、内容生产等领域注入新的语音能力。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version