ITBear旗下自媒体矩阵:

阿里云深夜发布重磅开源:Qwen3-Omni等多款AI工具亮相,多模态与TTS能力再升级

   时间:2025-09-23 09:34:57 来源:小AI编辑:快讯 IP:北京 发表评论无障碍通道
 

阿里云今日宣布开源三项重要AI技术成果,包括全球首个原生端到端全模态AI模型Qwen3-Omni、多语言文本转语音系统Qwen3-TTS,以及图像编辑工具Qwen-Image-Edit-2509。这些创新成果在多模态处理、语音合成和图像编辑领域取得突破性进展。

Qwen3-Omni作为业界首个原生全模态模型,实现了文本、图像、音频、视频的统一处理能力。该模型通过混合预训练架构,在保持单模态性能的同时,显著提升了跨模态处理能力。在36项音视频基准测试中,22项达到全球领先水平,其中32项在开源社区保持优势。特别在自动语音识别和语音对话场景中,其表现可与Gemini 2.5 Pro相媲美。模型支持119种文本语言、19种语音输入语言和10种语音输出语言,涵盖英语、中文、阿拉伯语等主要语种,以及粤语、闽南语等8种中国方言。

技术架构方面,Qwen3-Omni采用创新的"思考者-表达者"MoE设计,结合AuT预训练技术强化通用表征能力。多码本设计使系统延迟降低至行业领先水平,支持实时流式交互。用户可通过系统提示词实现行为定制,满足不同场景需求。同步开源的Qwen3-Omni-30B-A3B-Captioner音频描述模型,在细节还原和准确性方面树立新标杆。

在语音合成领域,Qwen3-TTS系统支持17种专业音色,每种音色覆盖10种语言,包括普通话、英语、法语等主流语言,以及闽南语、四川话等8种方言。最新发布的Qwen3-TTS-Flash版本在语音稳定性和音色相似度上超越SeedTTS、Elevenlabs等主流系统。性能测试显示,其双卡并发处理能力较前代提升50%,首包延迟缩短至97ms,实时因子(RTF)指标达到0.30,处于行业领先水平。

图像编辑工具Qwen-Image-Edit-2509实现重大升级,通过图像拼接技术拓展多图编辑能力。该版本支持"人物+场景"、"产品+背景"等复合编辑模式,在1-3张图像输入时效果最佳。单图编辑方面,人脸特征保留精度提升40%,支持风格化变换和姿势调整;产品编辑可精准维持商品特征,适用于电商海报制作;文字编辑新增字体、颜色、材质修改功能。系统原生集成ControlNet,支持深度图、边缘图等专业控制方式。

配套开源的Qwen3-Next-80B系列模型提供指令微调和思维链两个版本,采用FP8量化技术平衡性能与效率。所有模型代码和预训练权重已通过GitHub、HuggingFace和魔塔社区开放下载,配套演示空间同步上线,开发者可快速体验模型能力。

 
 
更多>同类资讯
全站最新
热门内容
网站首页  |  关于我们  |  联系方式  |  版权声明  |  争议稿件处理  |  English Version