阿里巴巴云计算旗下Qwen团队近日推出两款创新型语音生成模型,标志着人工智能在声音处理领域取得重要突破。这两款模型分别聚焦文本驱动的语音生成与短音频克隆技术,为内容创作者、影视制作及语音交互场景提供全新解决方案。
其中,Qwen3-TTS-VD-Flash模型突破传统语音合成框架,允许用户通过自然语言描述精准控制声音特征。用户可同时指定性别、年龄、情感状态、语速节奏等参数,例如生成"带有磁性低音的年轻女性解说声"或"充满戏剧张力的老年男性独白"。该模型在多维度声音控制能力上已超越OpenAI近期发布的GPT-4o mini-tts接口,尤其在情感渲染与语调变化方面表现突出。
另一款Qwen3-TTS-VC-Flash模型则专注于语音克隆技术,仅需3秒原始音频即可完成声音特征提取。该技术突破语言限制,支持中、英、日、韩等十种语言的跨语种复现,且在音色保真度与口音还原方面达到行业领先水平。测试数据显示,其语音克隆错误率较Elevenlabs、MiniMax等同类产品降低约37%,在短音频克隆场景下优势显著。
技术团队透露,这两款模型具备多模态处理能力,除常规语音生成外,还可模拟动物叫声、环境音效等特殊声音。通过深度神经网络架构,模型能自动识别录音中的背景音并分离目标声源,为影视后期制作提供高效工具。开发者可通过阿里巴巴云API直接调用模型服务,同时Hugging Face平台已上线交互式演示界面,用户可实时体验声音定制与克隆功能。
行业分析师指出,这两款模型的推出将重塑语音内容生产流程。从有声书录制到虚拟主播,从游戏角色配音到智能客服,高度可控的语音生成技术正在创造新的应用场景。值得注意的是,模型内置的伦理审查机制可自动过滤不当内容,确保技术应用的合规性。










