滚动资讯

当前位置：首页 > 资讯 > 手机快报 > 正文内容

普林斯顿与纽约大学新研究：合成图片为AI视觉感知能力精准“补课”

时间：2026-04-21 11:21:28 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

手机里的AI助手能识别照片中的动物、读懂菜单文字，甚至分析复杂图表，但当被问及“照片里的椅子是朝前还是背对镜头”或“两个杯子哪个离镜头更近”时，却常常给出错误答案。这种“看得见却看不懂”的现象，暴露了当前视觉语言模型在基础空间感知能力上的普遍缺陷。普林斯顿大学与纽约大学联合研究团队通过一项创新实验证明：通过定制化合成图片训练AI，可显著提升其低层次视觉感知能力，相关成果已以预印本形式发布。

研究团队发现，现有AI模型训练依赖的网络图片存在结构性缺陷。这些随机抓取的图片虽数量庞大，但对“前后关系”“物体朝向”“深度排序”等基础视觉要素的覆盖既稀疏又缺乏系统性。就像通过随机翻字典学习语言，AI难以从这些图片中提炼出稳定的视觉规则。为此，研究团队提出“按需定制”合成图片的解决方案，开发出名为VisionFoundry的自动化系统，并构建了包含一万张图片的专项训练集VisionFoundry-10K。

该系统的运作流程类似智能食品工厂：用户输入训练目标关键词（如“物体朝向”），系统首先通过大语言模型构建概念池，随机组合物体、场景等要素生成图片描述及配套问答，确保答案完全基于图片内容；随后调用文字转图片模型生成合成图像；最后由多模态模型担任“质检员”，验证图片与答案的一致性，淘汰不合格样本。整个过程无需真实图片或人工标注，仅通过三个自动化环节即可生成高质量训练数据。

VisionFoundry-10K数据集覆盖十种核心视觉感知技能，包括物体朝向判断、拍摄视角识别、空间位置关系、物体状态判断等。例如，在“深度排序”任务中，AI需判断潜水艇和刀哪个更靠近相机；在“结构与物理特征”任务中，则要识别气压计的外轮廓形状。所有问题均采用简洁确定的答案形式（如“左/右”“是/否”），便于模型学习。研究团队用该数据集对三个不同规模的开源模型进行微调，结果显示：在MMVP配对测试中，中型模型MiMo-VL-7B的得分从43.3%提升至57.3%；在CV-Bench三维空间测试中，同一模型的得分从72.3%跃升至83.7%，提升幅度均超过10个百分点。

实验表明，合成图片在系统性覆盖特定视觉信号方面具有天然优势。当研究团队将合成数据与真实图片混合训练时，模型在视觉感知测试中的表现始终优于纯真实图片方案。进一步控制实验显示，即使使用相同的问题描述，仅替换为合成图片仍能带来显著提升，尤其在三维空间理解任务中优势突出。这印证了合成图片的价值不仅在于配套问答，更在于其能精准呈现目标视觉关系的设计逻辑。

质量验证环节被证明是提升训练效果的关键。未经验证的数据在多项测试中表现甚至低于基线模型，而经过Gemini-3-Pro审核的数据在多个测试中得分提升0.5至2.6个百分点。人工抽查显示，该审核系统的精确度达99%，与人类判断的一致性系数为0.794，具备大规模应用的可靠性。研究还发现，训练数据量与效果呈正相关：从500个样本扩展至一万个样本时，模型得分稳步上升，且任务多样性有助于缩短训练轮数。

细粒度分析揭示了合成数据的任务特异性。例如，“深度排序”训练能显著提升空间感知测试成绩，但对屏幕界面定位任务效果有限；“颜色识别”训练则对状态判断任务帮助较小。这表明，选择与测试目标匹配的训练任务可实现精准提升，而盲目扩大数据规模未必有效。值得注意的是，专项训练未导致模型通用能力大幅下降，仅在未涉及的任务（如文字识别）中出现小幅波动，印证了该方法的可控性。

这项研究为AI训练提供了新思路：通过针对性设计训练数据，可高效弥补模型的能力短板。VisionFoundry的自动化流程降低了数据构建成本，使中小研究团队也能开展专项训练。随着文字转图片模型技术的进步，合成图片的质量将持续提升，进一步拓展该方法的适用范围。当前研究主要聚焦低层次视觉感知，未来或可探索其对高层次视觉推理任务的迁移效果。

更多>同类资讯

边缘AI省电新突破：QEIL v2框架让智能设备"聪明"用能，性能能耗双提升

04-21

华为Pura 90系列携2亿长焦来袭开启移动影像智拍全新纪元

04-21

华为WATCH GT6系列迎鸿蒙6.1升级新增表盘运动录音功能更实用

04-21

内存成本飙升千元，Pura 90系列反降千元！余承东：已尽全力保价

04-21

华为超空间内存技术：16GB内存体验跃升，Mate 80系列及X7系列将获升级支持

04-21

华为Pura90系列登场：多版本配置价格揭晓，余承东坦言定价承压

04-21

库克九月卸任苹果CEO

苹果公司近日宣布重大人事变动，掌舵十五年的蒂姆·库克将卸任首席执行官，转任执行董事长。现任硬件工程高级副总裁约翰·特努斯（John Ternus）将于九月正式接任CEO职位，这场交接引发全球科技界广泛关注。

04-21

华为首款鸿蒙AI眼镜亮相！1200万超感光镜头+AI交互，2499元起售

04-21

油电共进智领未来一汽奥迪2026北京车展携多款新车强势登场

04-21

宇瞳光学助力华为Pura 90 Pro Max：15枚镜片打造专业长焦增距镜

04-21

飞牛fnOS携手OPPO深化生态合作共筑手机私有云协同新体验

04-21

华为WATCH GT6系列手表升级鸿蒙6.1：新增表盘运动录音功能优化体验

04-21

鸿蒙智行问界M9新亮点曝光：双百万像素大灯、祥云门把手等配置来袭

04-21

XGP四月末至五月新游阵容揭晓，《最终幻想5》等多款佳作即将加入

04-21

华为再推折叠屏新作Pura X Max，引领折叠屏迈向“为内容而生”新时代

04-20

点击查看更多 +

全站最新

天工国际硬质合金刀具业务一季度放量大增丨机器人领域标杆订单深度落地

A股异动丨或被"*ST"!，联翔股份跌停，封单金额超2.5亿元

2026款北美汉兰达焕新登场：全系四驱配2.4T 动力，七座八座随心选

油电共进智领未来一汽奥迪2026北京车展携多款新车强势登场

敬业专用汽车携手乘龙重卡与锦桥汽贸，三方合作签单，共促物流高质量发展

热门内容

本栏最新

油电共进智领未来一汽奥迪2026北京车展携多款新车强势登场

鸿蒙智行问界M9新亮点曝光：双百万像素大灯、祥云门把手等配置来袭

岚图泰山X8 4月22日预售来袭价值价格双期待科技舒适亮点多

零跑D19上市：以技术破局打破汽车行业“旗舰高价”潜规则

UU跑腿全球首推跑腿Skill，AI赋能实现一句话下单，开启服务新体验

鸿蒙智行智界V9白车身技术揭秘全球首发全维气囊引领MPV安全新标杆

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.