ITBear旗下自媒体矩阵:

阿里巴巴Qwen团队发布AI新模型:文本生成声音,三秒音频克隆十种语言

   时间:2025-12-24 18:30:25 来源:互联网编辑:快讯 IP:北京 发表评论无障碍通道
 

阿里巴巴云计算旗下Qwen团队近日推出两款创新型语音生成模型,标志着人工智能在声音处理领域取得重要突破。这两款模型分别聚焦文本驱动的语音生成与短音频克隆技术,为内容创作者、影视制作及语音交互场景提供全新解决方案。

其中,Qwen3-TTS-VD-Flash模型突破传统语音合成框架,允许用户通过自然语言描述精准控制声音特征。用户可同时指定性别、年龄、情感状态、语速节奏等参数,例如生成"带有磁性低音的年轻女性解说声"或"充满戏剧张力的老年男性独白"。该模型在多维度声音控制能力上已超越OpenAI近期发布的GPT-4o mini-tts接口,尤其在情感渲染与语调变化方面表现突出。

另一款Qwen3-TTS-VC-Flash模型则专注于语音克隆技术,仅需3秒原始音频即可完成声音特征提取。该技术突破语言限制,支持中、英、日、韩等十种语言的跨语种复现,且在音色保真度与口音还原方面达到行业领先水平。测试数据显示,其语音克隆错误率较Elevenlabs、MiniMax等同类产品降低约37%,在短音频克隆场景下优势显著。

技术团队透露,这两款模型具备多模态处理能力,除常规语音生成外,还可模拟动物叫声、环境音效等特殊声音。通过深度神经网络架构,模型能自动识别录音中的背景音并分离目标声源,为影视后期制作提供高效工具。开发者可通过阿里巴巴云API直接调用模型服务,同时Hugging Face平台已上线交互式演示界面,用户可实时体验声音定制与克隆功能。

行业分析师指出,这两款模型的推出将重塑语音内容生产流程。从有声书录制到虚拟主播,从游戏角色配音到智能客服,高度可控的语音生成技术正在创造新的应用场景。值得注意的是,模型内置的伦理审查机制可自动过滤不当内容,确保技术应用的合规性。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version