滚动资讯

当前位置：首页 > 资讯 > 业界动态 > 正文内容

阿里巴巴Qwen3.5-Omni：全感官AI新突破，多模态交互实力几何？

时间：2026-04-27 22:27:59 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

阿里巴巴Qwen团队近日发布了一项突破性成果——全感官AI模型Qwen3.5-Omni，该模型在多模态交互领域实现重要跨越。与传统AI系统仅能处理单一模态数据不同，新模型可同步处理文字、图像、音频和视频信息，并支持实时语音交互，标志着人工智能向"全感官"认知迈出关键一步。

研究团队创新设计的"Thinker-Talker"双角色架构成为核心技术支撑。其中"思考者"模块负责整合多模态输入，通过混合注意力混合专家架构实现超长上下文理解，支持256k词元处理能力，相当于完整解析一本长篇小说。配套的"说话者"模块则采用多码本编解码器与ARIA技术，在保证语音自然度的同时，将流式生成稳定性提升至行业领先水平。

在音频处理方面，自主研发的音频变换器AuT展现出强大实力。该组件通过4000万小时的音视频配对数据训练，可精准分离环境噪音、人声和背景音乐。动态注意力窗口机制使其在实时语音流和离线音频分析场景中均保持优异表现，支持每秒1帧的720P视频长达400秒的连续处理。

多模态同步技术取得突破性进展。新型位置编码技术TM-RoPE通过文字时间戳插入方式，有效解决了长视频中的时间关联难题。实验数据显示，模型在视频帧采样与音频流的时间对齐精度达到160毫秒级，确保跨模态信息融合的准确性。这种设计使系统能灵活支持任意时长的流式输入，为实时交互奠定基础。

性能评测显示，Qwen3.5-Omni-Plus在215项音频音视频基准测试中刷新纪录，在音乐结构分析、歌曲形态识别等专项测试中领先竞争对手13个百分点。语音识别模块支持113种语言方言，在中文、粤语等测试集中词错误率低至1.95%，较前代模型提升40%。语音生成模块实现29种语言的零样本克隆，中文音色相似度达0.800，跨语言迁移错误率下降72%。

技术架构创新体现在多个维度。混合MoE骨干网络配合门控Delta模块，使长序列处理吞吐量提升3倍。分块预填充机制将首词元生成延迟压缩至435毫秒，轻量化Flash版本更将这一指标降至235毫秒。三阶段预训练策略通过32768至262144词元的渐进式扩展，使模型具备处理超长文本的能力，在长视频理解测试中得分较基础版本提升12%。

实际应用场景中，模型展现出三大独特能力：可控音视频字幕生成可自动标注场景切换和时间码；实时交互系统支持语义级语音打断和端到端声控调节；最引人注目的是"音视频氛围编程"能力，模型能根据多媒体指令直接生成可执行代码，在测试中成功完成视频处理脚本的自动编写。

对比测试揭示更多技术细节。在MMLU-Pro知识测试中，多模态版本与纯文本模型得分差距小于1%，证明新增感官能力未影响核心文本处理性能。视频理解测试Video-MME显示，模型对动态场景的推理准确率达81.9%，较文字版本提升0.9个百分点。医疗视觉问答SLAKE测试中，多模态优势使得分提高1.9个百分点，验证了跨模态信息融合的临床价值。

语音生成质量评测采用SEED-TTS基准，中文词错误率控制在0.99%，英文达1.26%，创下新纪录。跨语言语音克隆测试中，中文到韩语迁移的混合错误率仅4.03%，较同类产品降低72%。在29种语言的自定义声音生成测试中，模型展现出强大的泛化能力，无需额外训练即可在日语、韩语等挑战性语言上保持低错误率。

该成果论文编号arXiv:2604.15804v1已开放下载，详细披露了双角色架构设计、ARIA技术原理及三阶段训练策略。研究团队特别指出，"音视频氛围编程"等涌现能力揭示了大规模多模态训练的潜在价值，这类能力可能重塑人工智能的应用边界。目前模型已开放Plus和Flash两个版本，分别面向高性能计算和边缘设备场景。

更多>同类资讯

追觅CEO俞浩连发微博斥小红书：价值观有毒算法助恶引热议

“这并不是我们近期有啥小红书舆情了，而是我观察一段时间之后的结论。”此外，俞浩补充说：“至于有人爱看小红书，那总有人爱看一些平台，就跟八卦谣言也总有人爱看一样。业绩方面，4月13日，俞浩发文表示，追觅在今…

04-27

Meta裁员8000人背后：AI重塑职场，白领岗位“变天”人才标准生变

不是缺钱，是AI在替代人。扎克伯格正投入数千亿美元布局AI，这也是今年美国大型企业尤其是科技行业的普遍趋势。2026年已经有7.3万人遭到裁员，其中绝大多数位于美国。横向对比，这一指标在2025年全年为12…

04-27

Agent时代团队协作新范式：谁在重塑原生协作空间？

Agent Native 需要的是，文件格式从 .docx 换成 Markdown、CSV、HTML 这些 Agent直接读写的纯文本，Agent 之间有共享的上下文而不是各自锁在对话窗口里，新能力写一段…

04-27

B站首届AI造物联赛启幕无门槛赛季制助力AI产品孵化与共创

2026年4月27日，哔哩哔哩（以下简称“B站”）对外宣布开启《硅碳合战·S1——首届bilibili AI造物联赛》，并开放报名通道。参赛者需在B站持续发布创作视频，公开展示AI产品从构想到迭代的全过程，并…

04-27

对话极氪高层：车展热度背后，如何以品牌沉淀与技术标签穿越周期？

04-27

AI浪潮下真假难辨？小红书首推AI治理主张守护社区真实底色

04-27

OpenAI跨界造手机：联发科高通助力，AI新势力挑战苹果生态护城河

04-27

OpenAI跨界入局手机市场，联发科高通助力，苹果生态护城河受挑战？

郭明錤同时发布了一张AI agent手机界面概念设计图，用以展示这一新形态手机与现有产品在交互逻辑上的根本差异——用户不再是打开一堆应用程序，而是通过手机直接执行任务、满足需求。由于手机硬件供应链已高度成熟…

04-27

谷歌“Agent Skill”工具箱开源：云服务与AI深度融合，开发者迎来高效开发新时代

事实上，早在谷歌发布这款官方 Agent Skill 库之前，谷歌云 AI 总监、Gemini 工程负责人 Addy Osmani在领英上宣布开源了一款 Agent Skills 库：为 AI 编码智能…

04-27

OpenAI跨界造手机：牵手联发科高通，2028年量产能否重塑行业格局？

郭明錤进一步解释了OpenAI做手机逻辑：一是唯有完全掌控操作系统与硬件，才能提供全方位的AI智能体服务；二是获取实时状态，只有手机能拥有用户一切的“当下状态”，这是实时AI智能体推理服务最重要的输入信息；…

04-27

OpenAI入局手机赛道：以AI Agent重构交互，2028年或颠覆移动生态

4月27日，天风国际证券分析师郭明錤在其个人社媒上发布了最新产业报告，披露人工智能巨头OpenAI正计划自研智能手机，计划以AIAgent为核心重新定义移动终端交互逻辑，目前已在硬件层面启动实质性布局。 …

04-27

硅谷5月将启“Science for AI”盛会全球顶尖智慧共探AI科学新未来

04-27

雷军披露小米玄戒O1芯片出货破百万，自研芯片还将用于小米汽车

04-27

OpenAI携手联发科高通入局手机处理器，2028年量产或重塑行业格局

04-27

DeepSeek-V4发布引关注：性能、协同、生态与性价比成五大焦点

04-27

点击查看更多 +

全站最新

东风奕派双车齐发：奕派M8携华为技术亮相，纳米01 Cross以8.38万开启纯电新体验

图解丨南下资金加仓中芯国际、中国移动，减持阿里和腾讯

韩国、中国台湾、日本三地股市收盘齐创历史新高

史诗级暴涨中，知名大空头紧急出手！

沃什入主美联储板上钉钉？鲍威尔将迎终极大考！

台股涨超3%，首次突破4万点，再创历史新高

热门内容

本栏最新

追觅CEO俞浩连发微博斥小红书：价值观有毒算法助恶引热议

Meta裁员8000人背后：AI重塑职场，白领岗位“变天”人才标准生变

Agent时代团队协作新范式：谁在重塑原生协作空间？

B站首届AI造物联赛启幕无门槛赛季制助力AI产品孵化与共创

追觅CEO前日炮轰小红书“烂平台” 小红书次日回应以AI治理主张

新一代小米SU7深度试驾：以卓越性能与精致设计，重塑运动轿车新标杆

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.