在第三方空间推理评测平台SpatialBench公布的最新榜单中,阿里旗下千问视觉模型系列包揽前两名。其中Qwen3-VL以13.5分领跑,Qwen2.5-VL以12.9分紧随其后,较第三名Gemini3.0 Pro Preview的9.6分和第四名GPT-5.1的7.5分形成显著优势,距离人类基准线80分再获突破性进展。
该榜单聚焦2D/3D空间认知、结构解析与路径规划能力,涵盖电路故障诊断、CAD工程图纸解析、分子三维构型预测等20余类复杂任务,被业界视为评估具身智能发展水平的核心指标。测试场景不仅包含静态空间分析,更延伸至动态环境下的实时推理需求。
技术突破方面,Qwen3-VL通过三项核心升级构建竞争优势。其3D检测模块新增旋转框输出与深度估计双任务头,在遮挡场景下的平均精度(AP)提升18%,可精准识别物体空间方位并感知视角变化。视觉编程功能支持用户输入手绘草图或10秒短视频,自动生成可执行的Python+OpenCV代码,实现从视觉输入到功能实现的闭环。模型矩阵方面,除提供2B至235B参数的密集模型外,还推出30B-A3B、235B-A22B等混合专家(MoE)架构版本,其中推理版在32项核心能力测试中平均领先Gemini2.5 Pro达6.4分。
开源策略上,Qwen2.5-VL已实现全量代码与模型权重开源,开发者可自由调用基础能力。Qwen3-VL计划于2025年第二季度开放完整工具链,同步在千问官方应用中提供免费体验入口。这种阶梯式开放模式既保障技术生态建设,又为中小企业提供低成本验证机会。
商业化落地进程加速推进。阿里云披露,Qwen3-VL已在物流分拣机器人、AR设备装配指导、自动化港口调度等场景完成概念验证(POC),其空间定位精度达到厘米级(误差<2cm)。特别在动态环境适应性测试中,模型可实时处理多摄像头输入并生成控制指令,较传统方案效率提升40%。2026年将推出"视觉-动作"端到端模型,通过整合视觉感知与运动控制模块,为工业机器人提供毫秒级响应的视觉伺服能力,重点突破复杂环境下的自主操作瓶颈。










