滚动资讯

当前位置：首页 > 资讯 > 人工智能 > 正文内容

让AI学会“认真看图”：V-GIFT方法为视觉理解注入新活力

时间：2026-04-27 22:21:06 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当前的多模态大语言模型在图像理解任务中常出现“能看不能辨”的尴尬局面：它们能描述图片中的大致场景，却无法准确回答物体数量、空间位置等需要精细视觉分析的问题。法国人工智能公司Valeo.ai联合索邦大学等机构的研究团队发现，这种缺陷源于模型训练时形成的“语言捷径”习惯——AI更倾向于依赖文字规律而非真实视觉信息进行判断。该研究以预印本形式发布于arXiv平台，提出通过改造训练数据结构来破解这一难题。

研究团队将传统图文训练数据与三类特殊任务结合，开发出名为V-GIFT（视觉驱动指令微调）的训练方法。这些任务包括：要求AI判断旋转后的图片角度，迫使模型分析物体朝向；通过黑白图标记点与彩色图乱序颜色的匹配，考验上下文颜色推理能力；在两张不同视角图片中寻找对应点，检验三维空间理解水平。这些题目均无法通过语言规律猜测答案，必须调动视觉感知模块才能正确解答。

实验数据显示，在原有训练数据中仅加入3%-10%的特殊任务，即可显著提升模型视觉能力。以LLaVA-1.5-Vicuna-7B模型为例，在CVB-2D空间推理测试中得分提升2.6分，POPE物体幻觉测试提升0.2分，MMStar多维推理测试提升1.1分。更强的LLaVA-OneVision-1.5模型在BLINK视觉感知测试中提升达3.4分。值得注意的是，即使特殊任务数据仅来自单张图片的数百个裁切版本，仍能产生有效训练信号，证明关键在于题目设计而非数据规模。

可视化分析揭示了训练效果的本质变化：经过V-GIFT训练的模型在回答问题时，注意力更集中于与问题相关的图像区域。例如面对“图中有几盏台灯”的提问，传统模型注意力分散在背景区域，而改进后模型能精准聚焦台灯位置。TVI指标显示，新模型在回答时对视觉信息的依赖度提升15%-20%，有效减少了语言先验的干扰。

该方法在保持语言能力方面表现优异。测试表明，在MathVista数学推理、OCRBench文字识别等非视觉任务中，改进后模型与基线模型性能持平，部分指标甚至略有提升。这种“视觉增强而不伤语言”的特性，得益于研究团队将特殊任务与常规指令数据混合训练的设计——既强制模型使用视觉模块，又避免破坏原有语言理解能力。

对比实验进一步验证了方法优势：与需要额外损失函数的VIRAL方法相比，V-GIFT在不修改模型结构的情况下取得更好效果；单纯增加训练步数或单独进行视觉预训练均无法产生同等提升。研究还发现，特殊任务必须与常规指令微调同步进行，若分阶段训练会导致性能下降，这印证了视觉与语言能力需要协同培养的结论。

三类特殊任务呈现互补效应：旋转预测对空间关系判断提升最明显，颜色匹配有效减少物体幻觉，跨视角任务增强复杂场景理解。研究者建议根据具体需求选择任务组合——若需全面提升视觉能力，三者并用效果最佳；若专注特定领域，单一任务训练已能产生显著改善。

这项研究为多模态模型训练提供了新思路：与其不断扩充数据规模或复杂化模型结构，不如通过优化训练数据分布来引导正确的学习路径。该方法无需人工标注、不增加推理成本，仅通过改造现有训练流程即可实现性能提升，为开发更可靠的视觉语言模型指明了低成本、高效率的技术方向。完整实验细节可通过arXiv编号2604.12966查阅论文原文。

更多>同类资讯

五所高校联合攻克AI持续学习难题：最优传输理论助力对抗遗忘

04-27

艺术与科技共舞：机器人演绎经典，AI时代艺术教育如何破局新生？

04-27

GPT-5.5发布：长上下文质变，定价翻倍下中国开发者的机遇与挑战

国产模型在编程能力上正在逼近，DeepSeekV3.2、Qwen3.6在LMArena编程榜单上已经跻身前十；但在复杂推理、顶层科研场景上，FrontierMath Tier 4国产最优解尚不在同一量级，但…

04-27

AI安全风险受瞩目多家企业主动为高能力模型设置访问门槛

《参考消息》4月27日刊发文章《“太危险而不宜向公众开放”AI企业为最强模型设限渐成趋势》。该模型在化学、生物学任务及实验设计方面的表现，显著优于当前公开可用的模型。 Anthropic与OpenAI对近…

04-27

郭明錤爆料：OpenAI携手高通联发科研发手机芯片 2028年或迎量产新篇

04-27

MiniMax港股表现低迷：大跌14% 市值较峰值缩水半数

04-27

联发科北京车展亮剑：3nm座舱芯片引领AI汽车新潮流，2nm芯片蓄势待发

04-27

最高法院定音：露韦美恶意诉讼宇树科技败诉赔偿8万并担诉讼费

04-27

脉脉CEO林凡谈ChatGPT Images2.0：互联网信任受冲击，实名社交曙光初现

04-27

高德专车全面升级，“AI专车管家”全流程融入，打造出行新体验

04-27

离开独角兽后创业，许华哲：家庭机器人是未来，智能争夺战已打响

我创业这事，跟我爸妈聊，他们肯定是说支持，但你要不创业也不错，因为在他们的视角里，在清华只做教书这一件事，对他们来说也足够好，甚至会是更好的选择。不是别人做了一个什么，我们要立刻有别人有的这个东西；别人做了…

04-27

千诀科技：类脑智能突破“缸中之脑”想象，重塑机器人未来生态

核心原因是，L2场景下的数据能够持续回流、反哺模型，而那些直奔L4的端到端方案，恰恰因为数据量达到及格线的门槛太高，在起步阶段就耗尽了弹药。他总结道，“工业场景要求太高了，既要节拍又要精度，你用模型做最后会…

04-27

泳池热泵老玩家菲亚兰德跨界逐浪泳池机器人“第一股”花落谁家？

一方面，泳池机器人比热泵、水泵更容易讲出增长故事；另一方面，泳池机器人则更接近消费电子和智能硬件，既有更新换代，也有品牌溢价，还能和“庭院智能化”“机器人出海”这些资本市场关键词挂钩。只不过，从泳池热泵、…

04-27

灵光App上线新功能：上传图片或输入指令即可开启“体验世界模型”之旅

04-27

硅谷AI创业盛会来袭！OpenAI等巨头齐聚，$70K+奖金助创业者启航

04-27

点击查看更多 +

全站最新

东风奕派双车齐发：奕派M8携华为技术亮相，纳米01 Cross以8.38万开启纯电新体验

图解丨南下资金加仓中芯国际、中国移动，减持阿里和腾讯

韩国、中国台湾、日本三地股市收盘齐创历史新高

史诗级暴涨中，知名大空头紧急出手！

沃什入主美联储板上钉钉？鲍威尔将迎终极大考！

台股涨超3%，首次突破4万点，再创历史新高

热门内容

本栏最新

黄鹤之星领航班走进华为：共话数智未来，携手开启企业转型新篇章

元戎首席科学家阮翀首秀：基座模型破局智驾困境，驱动组织AI变革

海康存储北京车展秀实力：多款车载新品亮相，赋能汽车智能化新未来

国家超算互联网限时免费开放DeepSeek-V4对话开启百万上下文普惠新篇

欣旺达北京车展秀实力：“欣星环”电池发布，“能量家生活馆”引领新能源生活

吉利第5代帝豪i-HEV智擎混动北京车展首秀动力节能安全全面升级

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.