新加坡国立大学研究团队近日完成一项关于视觉语言模型的重要研究,揭示了当前衡量模型内部工作机制指标存在的重大缺陷。该研究以预印本形式发布,编号为arXiv:2606.05753,聚焦于视觉语言模型中广泛使用的潜在视觉推理(LVR)机制。
视觉语言模型能够同时处理图像和文本信息,例如回答"图中红色方块在哪里"这类问题。为提升模型性能,研究者引入LVR机制,要求模型在输出答案前生成"中间思考令牌",这些令牌被训练为接近图像关键区域的特征表示。长期以来,余弦相似度作为衡量令牌与目标接近程度的标准指标,被普遍认为与答案质量正相关。
研究团队通过系统实验颠覆了这一认知。他们设计了五种不同训练方式的LVR模型变体,包括标准训练、添加噪声训练、分阶段训练等,并在多个视觉推理基准上测试。结果显示,余弦相似度与答案准确率呈显著负相关,相关系数达-0.94。具体数据表明,某些模型在将余弦相似度提升40%的同时,准确率反而下降13个百分点。
为追踪答案的真实形成位置,研究团队开发了名为PRISM的诊断工具。该工具包含两个核心方法:线性探针通过简单分类器检测模型不同位置的答案信息含量;损坏测试通过干扰中间令牌观察性能变化。实验显示,答案信息主要聚集在模型最终输出前的状态中,而非中间令牌处。可解码性缺口指标(G值)表明,不同训练方式对模型内部信息流动路径产生了根本性影响。
研究解释了这种矛盾现象的根源:LVR训练通过反向传播同时影响重建损失和交叉熵损失。虽然重建损失推动令牌接近目标,但真正决定答案质量的是交叉熵损失对语言模型参数的整体塑造。某些训练方式(如添加噪声)通过正则化效应提升了参数质量,而非改善中间令牌本身。这解释了为何看似更优的令牌训练反而导致性能下降。
该研究对视觉语言模型领域具有深远启示。当前多模态学习中广泛使用的辅助监督信号可能存在类似问题:研究者优化的中间表示未必是模型实际依赖的表示。PRISM工具提供的双维度评估框架,为检测模型真实信息流动路径提供了新方法。研究团队特别指出,其发现仅基于特定模型和数据集,对于不同任务类型的普适性仍需进一步验证。
这项研究引发了对模型评估指标的深刻反思。长期以来,余弦相似度作为中间表示质量的黄金标准,实际上可能测量的是无关特征。研究揭示了训练过程与模型实际推理机制之间的复杂关系,为设计更有效的视觉语言模型指明了新方向:或许应该直接优化承载答案的内部状态,而非间接打磨被绕过的中间令牌。










