滚动资讯

当前位置：首页 > 资讯 > 信息流 > 正文内容

AI视觉模型“中间层”真相：被精心训练却遭绕过，答案另有出处

时间：2026-06-15 23:10:26 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

新加坡国立大学研究团队近日完成一项关于视觉语言模型的重要研究，揭示了当前衡量模型内部工作机制指标存在的重大缺陷。该研究以预印本形式发布，编号为arXiv:2606.05753，聚焦于视觉语言模型中广泛使用的潜在视觉推理（LVR）机制。

视觉语言模型能够同时处理图像和文本信息，例如回答"图中红色方块在哪里"这类问题。为提升模型性能，研究者引入LVR机制，要求模型在输出答案前生成"中间思考令牌"，这些令牌被训练为接近图像关键区域的特征表示。长期以来，余弦相似度作为衡量令牌与目标接近程度的标准指标，被普遍认为与答案质量正相关。

研究团队通过系统实验颠覆了这一认知。他们设计了五种不同训练方式的LVR模型变体，包括标准训练、添加噪声训练、分阶段训练等，并在多个视觉推理基准上测试。结果显示，余弦相似度与答案准确率呈显著负相关，相关系数达-0.94。具体数据表明，某些模型在将余弦相似度提升40%的同时，准确率反而下降13个百分点。

为追踪答案的真实形成位置，研究团队开发了名为PRISM的诊断工具。该工具包含两个核心方法：线性探针通过简单分类器检测模型不同位置的答案信息含量；损坏测试通过干扰中间令牌观察性能变化。实验显示，答案信息主要聚集在模型最终输出前的状态中，而非中间令牌处。可解码性缺口指标（G值）表明，不同训练方式对模型内部信息流动路径产生了根本性影响。

研究解释了这种矛盾现象的根源：LVR训练通过反向传播同时影响重建损失和交叉熵损失。虽然重建损失推动令牌接近目标，但真正决定答案质量的是交叉熵损失对语言模型参数的整体塑造。某些训练方式（如添加噪声）通过正则化效应提升了参数质量，而非改善中间令牌本身。这解释了为何看似更优的令牌训练反而导致性能下降。

该研究对视觉语言模型领域具有深远启示。当前多模态学习中广泛使用的辅助监督信号可能存在类似问题：研究者优化的中间表示未必是模型实际依赖的表示。PRISM工具提供的双维度评估框架，为检测模型真实信息流动路径提供了新方法。研究团队特别指出，其发现仅基于特定模型和数据集，对于不同任务类型的普适性仍需进一步验证。

这项研究引发了对模型评估指标的深刻反思。长期以来，余弦相似度作为中间表示质量的黄金标准，实际上可能测量的是无关特征。研究揭示了训练过程与模型实际推理机制之间的复杂关系，为设计更有效的视觉语言模型指明了新方向：或许应该直接优化承载答案的内部状态，而非间接打磨被绕过的中间令牌。

更多>同类资讯

伦铝大跌4%

06-15

2连板安德利：拟收购甬强科技控制权交易对价6-8亿元

06-15

CHEVALIER INT'L(00025.HK)拟6月29日举行董事会会议批准全年业绩

06-15

慕诗国际(00130.HK)拟6月26日举行董事会会议审批全年业绩

06-15

超表面电磁调控技术获突破：降本增效赋能6G及低轨卫星互联领域

06-15

国际商业结算(00147.HK)盈警：预计年度净亏损3.5亿港元

06-15

中信银行(00998.HK)：吕天贵行长任职资格获核准

06-15

阿里健康(00241.HK)授出228.35万份认股权及5646.45万个受限制股份单位

06-15

资本界金控(00204.HK)：5月末每股综合资产净值约为1.662港元

06-15

佳禾智能(300793.SZ)：目前没有6G产业的布局

06-15

基石药业-B(02616.HK)6月15日耗资2.8万港元回购6000股

06-15

东方电气(01072.HK)获The Goldman Sachs Group, Inc.增持154.74万股

06-15

工商银行(01398.HK)获贝莱德增持2795.53万股

06-15

连连数字(02598.HK)6月15日耗资108.1万港元回购23.45万股

06-15

荣利营造(09639.HK)拟6月29日举行董事会会议审批全年业绩

06-15

点击查看更多 +

全站最新

启境汽车获广州L3级自动驾驶路测许可携手华为乾崑共推智能出行新发展

宇树机器人“Pemba”挑战雪山：从钦博拉索起步珠峰之行待启新篇

支付宝政务AI“晓政”服务超1亿次，助力政务升级让群众办事更便捷高效

雷军用小米YU7 GT装车厘子引争议，回应称在封闭实验场内分装运输

雷军小米YU7装600斤车厘子引争议，回应称在封闭道路分装，交警谈公共道路规定

雷军武汉街头品味热干面：重温求学时光，直言味道如初几十年未改

热门内容

本栏最新

支付宝政务AI“晓政”服务超1亿次，助力政务升级让群众办事更便捷高效

全新标致E-308 SW来袭，混动旅行车新选择，实力表现值得期待

溜溜梅港交所主板上市首日表现亮眼，涨幅超170%市值近94亿港元

中国高速指示牌“大变身”：从视觉优化到智能互联，驾驶体验再升级

宁德时代“一壳两芯”架构亮相，钠离子电池产业化迈出关键一步

保养后油耗飙升？别急着怪车！机油问题才是幕后真凶

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.