阿里云近日正式推出全模态大模型Qwen3.5-Omni,该模型在音视频理解、实时交互等215项任务中刷新行业纪录,性能指标超越Gemini-3.1 Pro,跻身全球顶尖全模态大模型行列。测试数据显示,新模型可精准识别113种语言及方言,支持对音视频内容生成结构化描述,并首次展现出音视频Vibe Coding能力,能够根据动态画面自动生成可执行代码。
技术团队透露,Qwen3.5-Omni通过多模态融合架构实现突破,在复杂场景下的语义理解准确率提升37%,响应延迟降低至0.3秒以内。其独创的动态注意力机制可同时处理音频、视频、文本三种数据流,在直播监控、多语言会议记录等场景中表现尤为突出。例如,在短视频分析任务中,模型能自动提取关键帧并生成包含人物动作、场景变化的JSON格式描述文件。
商业化应用方面,阿里云百炼平台已上线三种规格的API服务:Plus版面向专业开发者提供全功能接口,Flash版优化了实时交互性能,Light版则主打轻量化部署。价格体系显示,Qwen3.5-Omni输入成本控制在每百万Tokens 0.8元以下,仅为国际同类产品Gemini-3.1 Pro的十分之一。个人用户可通过Qwen Chat免费体验基础功能,企业客户则支持私有化部署和定制化训练。
目前,该模型已在短视频创作、游戏NPC交互、智能客服等领域落地应用。某直播平台接入后,内容审核效率提升60%,多语言直播间的实时翻译准确率达到92%。游戏开发者利用其Vibe Coding能力,实现了根据玩家操作自动生成剧情分支的功能,开发周期缩短40%。技术专家指出,全模态大模型的普及将推动AI应用从单一场景向复杂交互领域延伸。








