当人类走进便利店寻找特定饮料时,即便货架上商品琳琅满目,我们也能迅速锁定目标。这种看似简单的视觉定位能力,对人工智能而言却是一道难题。中国科学院计算技术研究所的研究团队针对这一挑战,提出了一种名为CARVE的创新解决方案,有效提升了AI在复杂场景中的视觉推理能力。
研究团队发现,现有AI视觉语言模型在处理复杂图像时,注意力容易分散。就像人在嘈杂环境中难以集中精神一样,AI面对包含大量视觉元素的图片时,往往会被无关信息干扰,导致任务执行效率下降。这种注意力分散的程度与图像的视觉复杂度密切相关,研究团队通过量化分析证实,图像的纹理复杂度和颜色复杂度越高,AI的注意力就越难以集中。
CARVE方法的核心在于构建了一种对比注意力机制。该方法不需要对现有AI模型进行重新训练,而是通过设计两种不同的观察指令来引导模型。首先让AI以通用指令(如"描述图片")观察图像,此时模型的注意力主要受图像本身特征影响;再让AI以具体任务指令(如"找出红色标签的瓶子")观察同一图像,此时注意力会结合任务需求进行调整。通过对比这两次注意力分布的差异,CARVE能够准确识别出与任务真正相关的视觉区域。
研究团队从数学角度证明了这种对比机制的有效性。他们发现AI的注意力分布可以分解为两个独立因素的乘积:一个是完全由图像视觉特征决定的"视觉噪音因子",另一个是由任务需求决定的"语义信号因子"。在通用指令下,语义信号因子趋于均匀分布,注意力主要由视觉噪音主导;而在具体任务指令下,语义信号因子会在相关区域显著增强。CARVE通过简单的数学运算,成功分离出这两个因子,有效抑制了视觉噪音的干扰。
实验结果显示,CARVE方法在多个标准测试集上均取得了显著成效。特别是在处理能力有限的开源模型时,性能提升幅度最高达到75%。以LLAVA1.5-7B模型为例,在专门测试复杂场景小目标定位能力的V*数据集上,其准确率从38.7%提升至66.5%,提升幅度达71.83%。在需要识别图像中文字信息的TextVQA数据集上,同一模型的准确率也从47.8%提升至58.2%。
与其他视觉增强方法的对比测试进一步验证了CARVE的优势。在TextVQA数据集上,CARVE以58.2%的准确率领先于所有对比方法,包括基于SAM分割的方法(49.42%)、YOLO目标检测方法(48.84%)和CLIP视觉-语言匹配方法(48.55%)。虽然CARVE的处理时间(1.34秒/张)略长于YOLO等快速方法,但显著快于需要复杂分割的SAM方法(3.33秒/张),且无需任何模型训练,具有更好的实用性。
研究团队深入分析了CARVE的工作机制,发现使用网络深层注意力信息比浅层更有效,这与AI注意力在不同网络层次的演化规律一致。在浅层网络中,AI的注意力呈现全局扫描特征;随着网络加深,注意力逐渐聚焦到关键区域。CARVE通过对比机制,帮助模型在网络深层实现更有效的注意力收敛。
CARVE方法展现出了良好的鲁棒性。研究测试了不同的图像掩码生成参数,发现在保留图像20%-60%区域、选择2-3个主要区域的设置下,模型性能提升最为稳定。过度激进的掩码策略(如只保留20%以下区域或仅选择一个区域)反而会导致性能下降,因为可能丢失重要视觉信息。
尽管CARVE取得了显著进展,但研究团队也指出了其局限性。该方法会增加一定的计算开销,虽然通过早期终止推理和注意力缓存等优化策略,计算效率已得到提升,但在实时应用场景中仍需进一步优化。CARVE的效果依赖于通用指令的选择,研究团队通过实验确定了最优指令,但在不同语言和文化背景下可能需要调整。对于极端复杂的场景,如包含数百个小物体的密集图像,CARVE可能仍需结合其他技术手段。
这项研究为提升AI视觉推理能力提供了新思路。通过模拟人类"先浏览再聚焦"的视觉认知模式,CARVE帮助AI模型在复杂环境中更准确地定位关键信息。随着技术的不断完善,这类方法有望在医疗影像分析、辅助视觉系统、教育辅导等多个领域发挥重要作用,使AI的视觉理解能力更接近人类水平。