阿里云近日宣布推出全新多模态交互混合智能体——Qwen3.7-Plus,该模型作为Qwen3.7的升级版本,重点强化了视觉与语言融合能力,旨在构建统一的智能体基座。新模型不仅延续了原有文本处理、编码开发、工具调用等核心功能,更在视觉理解、跨模态推理及复杂任务执行方面实现突破性进展。
据技术文档披露,Qwen3.7-Plus支持多类型输入交互,包括图像、视频、屏幕截图、网页内容及文本数据,特别针对办公自动化场景优化。该模型可无缝适配图形界面(GUI)、命令行界面(CLI)及各类工具环境,能够自动解析复杂软件操作流程,完成从信息提取到任务执行的完整链路。在内部测试中,模型展现出对动态界面元素、多步骤操作指令的精准理解能力。
国际权威评测平台Vision Arena最新数据显示,阿里凭借该模型跻身全球多模态模型前五,并登顶中国区榜首。在纯文本能力测试中,Qwen3.7-Plus在编码智能体、跨语言处理、逻辑推理等维度达到行业顶尖水平,多项指标直逼Max级模型基准。多模态专项测试表明,模型在BabyVision视觉问答、MathVision数学推理、ScreenSpot Pro界面分析等场景中表现显著提升,任务完成准确率较前代提高37%。
开发团队透露,Qwen3.7-Plus通过创新的多模态注意力机制,实现了视觉信号与语言表征的深度对齐。在工具调用测试中,模型可自主组合使用计算器、浏览器、代码编辑器等工具,完成包含多环节的复合型任务。目前该模型已通过阿里云百炼平台开放API服务,开发者可在Qwen Studio体验交互式开发环境,企业用户可申请定制化部署方案。





