手机里的AI助手能识别照片中的动物、读懂菜单文字,甚至分析复杂图表,但当被问及“照片里的椅子是朝前还是背对镜头”或“两个杯子哪个离镜头更近”时,却常常给出错误答案。这种“看得见却看不懂”的现象,暴露了当前视觉语言模型在基础空间感知能力上的普遍缺陷。普林斯顿大学与纽约大学联合研究团队通过一项创新实验证明:通过定制化合成图片训练AI,可显著提升其低层次视觉感知能力,相关成果已以预印本形式发布。
研究团队发现,现有AI模型训练依赖的网络图片存在结构性缺陷。这些随机抓取的图片虽数量庞大,但对“前后关系”“物体朝向”“深度排序”等基础视觉要素的覆盖既稀疏又缺乏系统性。就像通过随机翻字典学习语言,AI难以从这些图片中提炼出稳定的视觉规则。为此,研究团队提出“按需定制”合成图片的解决方案,开发出名为VisionFoundry的自动化系统,并构建了包含一万张图片的专项训练集VisionFoundry-10K。
该系统的运作流程类似智能食品工厂:用户输入训练目标关键词(如“物体朝向”),系统首先通过大语言模型构建概念池,随机组合物体、场景等要素生成图片描述及配套问答,确保答案完全基于图片内容;随后调用文字转图片模型生成合成图像;最后由多模态模型担任“质检员”,验证图片与答案的一致性,淘汰不合格样本。整个过程无需真实图片或人工标注,仅通过三个自动化环节即可生成高质量训练数据。
VisionFoundry-10K数据集覆盖十种核心视觉感知技能,包括物体朝向判断、拍摄视角识别、空间位置关系、物体状态判断等。例如,在“深度排序”任务中,AI需判断潜水艇和刀哪个更靠近相机;在“结构与物理特征”任务中,则要识别气压计的外轮廓形状。所有问题均采用简洁确定的答案形式(如“左/右”“是/否”),便于模型学习。研究团队用该数据集对三个不同规模的开源模型进行微调,结果显示:在MMVP配对测试中,中型模型MiMo-VL-7B的得分从43.3%提升至57.3%;在CV-Bench三维空间测试中,同一模型的得分从72.3%跃升至83.7%,提升幅度均超过10个百分点。
实验表明,合成图片在系统性覆盖特定视觉信号方面具有天然优势。当研究团队将合成数据与真实图片混合训练时,模型在视觉感知测试中的表现始终优于纯真实图片方案。进一步控制实验显示,即使使用相同的问题描述,仅替换为合成图片仍能带来显著提升,尤其在三维空间理解任务中优势突出。这印证了合成图片的价值不仅在于配套问答,更在于其能精准呈现目标视觉关系的设计逻辑。
质量验证环节被证明是提升训练效果的关键。未经验证的数据在多项测试中表现甚至低于基线模型,而经过Gemini-3-Pro审核的数据在多个测试中得分提升0.5至2.6个百分点。人工抽查显示,该审核系统的精确度达99%,与人类判断的一致性系数为0.794,具备大规模应用的可靠性。研究还发现,训练数据量与效果呈正相关:从500个样本扩展至一万个样本时,模型得分稳步上升,且任务多样性有助于缩短训练轮数。
细粒度分析揭示了合成数据的任务特异性。例如,“深度排序”训练能显著提升空间感知测试成绩,但对屏幕界面定位任务效果有限;“颜色识别”训练则对状态判断任务帮助较小。这表明,选择与测试目标匹配的训练任务可实现精准提升,而盲目扩大数据规模未必有效。值得注意的是,专项训练未导致模型通用能力大幅下降,仅在未涉及的任务(如文字识别)中出现小幅波动,印证了该方法的可控性。
这项研究为AI训练提供了新思路:通过针对性设计训练数据,可高效弥补模型的能力短板。VisionFoundry的自动化流程降低了数据构建成本,使中小研究团队也能开展专项训练。随着文字转图片模型技术的进步,合成图片的质量将持续提升,进一步拓展该方法的适用范围。当前研究主要聚焦低层次视觉感知,未来或可探索其对高层次视觉推理任务的迁移效果。










