计算机视觉领域正迎来一场由推理扩展技术驱动的范式变革。随着大语言模型通过测试时计算扩展(Test-time Scaling)在逻辑推理层面实现突破,视觉智能的研究重心正从静态像素分析转向动态世界建模。这种转变标志着视觉系统从"被动感知"向"主动认知"的跨越,为构建具备人类级空间理解能力的AI模型开辟了新路径。
2026年6月,第二届计算机视觉推理扩展研讨会(ViSCALE 2026)将在美国举行。本届会议由清华大学、普林斯顿大学、加州大学圣克鲁兹分校及新加坡国立大学等机构联合主办,聚焦如何通过计算资源动态分配突破现有视觉模型的性能瓶颈。继首届会议开创性地将TTS技术引入视觉领域后,本届研讨会将深入探讨物理世界建模、三维空间推理等前沿课题。
会议核心议题涵盖四大方向:在物理世界建模领域,研究者将探索如何利用测试时扩展技术提升视频生成的时空连贯性与因果推理能力;空间认知方向则致力于突破二维平面限制,使模型具备三维环境中的导航与操作直觉;借鉴大语言模型的思维链机制,视觉思维链(Visual CoT)研究将推动模型实现多步推理与自我修正;会议还将首次系统探讨视觉推理性能与计算量之间的量化关系,为模型优化提供理论依据。
学术阵容方面,Sergey Levine、Manling Li、Ziwei Liu等国际知名学者已确认参会。这些来自学术界与产业界的顶尖研究者将围绕具身智能、自动驾驶等应用场景展开跨界对话,特别关注长时序空间推理、统一模型架构等关键技术挑战。会议设置的专题讨论环节,将为跨学科创新提供碰撞平台。
为促进原始创新,主办方现面向全球征集研究论文。征稿范围包括但不限于:TTS算法的理论突破、世界模型在复杂决策中的应用、具身智能系统的时空推理机制、视觉思维链的可解释性研究,以及推理扩展带来的模型安全性问题。投稿类型分为正式论文(8页,需存档)和扩展摘要(4页,非存档)两类,均要求使用CVPR 2026官方模板。
重要时间节点已确定:投稿截止日期为2026年3月10日(任意时区),录用通知将于3月18日发出。会议采用线上线下混合模式,主体活动安排在6月3日或4日下午举行。这项前沿技术盛会为研究者提供了展示创新成果的顶级平台,详细投稿指南可访问会议官网获取。








