阿里云近日宣布推出Qwen3.5-Omni全模态大模型,作为Qwen系列最新力作,该模型在多模态理解与交互领域实现突破性进展。其核心架构采用Hybrid-Attention MoE混合注意力专家网络,通过Thinker与Talker双模块协同处理复杂任务,支持文本、图像、音频及音视频的跨模态理解与生成。
在模型规格方面,Qwen3.5-Omni系列提供Plus、Flash、Light三种尺寸的Instruct版本。其中旗舰版Plus版本具备256K长上下文处理能力,可一次性解析超过10小时的音频数据或400秒的720P高清视频。训练数据集涵盖海量文本、视觉素材及超1亿小时的音视频素材,通过原生多模态预训练技术实现跨模态语义对齐。
语言能力实现质的飞跃,新模型支持113种语言及方言的语音识别,覆盖全球主要语言体系,同时具备36种语言的语音生成能力。在离线性能测试中,Qwen3.5-Omni-Plus在215项子任务中刷新SOTA纪录,包括3个音视频基准测试、5个音频基准测试、8个自动语音识别(ASR)基准测试、156个语音到文本(S2TT)任务及43个ASR专项任务,全面超越Gemini-3.1 Pro的通用音频处理能力。
该模型创新性地引入音视频Caption生成技术,可自动生成包含时间戳、人物关系及场景描述的结构化文本,支持视频内容的智能切片与标注。更值得关注的是,通过多模态Scaling技术,模型衍生出Audio-Visual Vibe Coding能力,能够直接根据音视频指令生成代码,实现跨模态编程交互。
实时交互功能迎来重大升级,新模型支持五项核心特性:基于意图识别的语义打断功能可自动过滤无效背景音;集成WebSearch与复杂FunctionCall能力,支持自主决策是否调用外部资源;端到端语音控制系统允许用户自由调节音量、语速及情绪表达;音色克隆技术支持用户上传音频样本定制专属语音;ARIA动态对齐技术通过自适应速率交错编码,彻底解决流式语音交互中的漏读误读问题。
架构设计方面,新模型延续Thinker-Talker双引擎架构,但将输入处理机制升级为ARIA动态对齐模式。Thinker模块通过Vision Encoder与Aut组件并行处理视觉与音频信号,Talker模块则负责多模态输入整合与上下文感知的语音生成,这种设计使文本与语音单元的同步精度提升40%。
开发者可通过Qwen Chat、HuggingFace及ModelScope平台体验离线及实时演示,商业用户可通过阿里云百炼平台调用API接口。模型提供55种音色选择,包括5个中英双语主音色、19个场景化音色、8个中文方言音色及23个多语言音色,满足不同场景的个性化需求。








