当医生指着X光片说“这里有问题”时,患者能直观理解诊断依据;而当人工智能系统给出类似判断时,其决策过程却常被形容为“黑箱操作”。弗吉尼亚大学与美国国立卫生研究院联合开展的研究显示,现有医学AI的“解释功能”普遍存在可靠性缺陷,在严格测试条件下,11种主流归因方法均无法准确指出AI判断所依赖的图像区域。这项发表于arXiv平台的研究(编号2605.20158)同时提出名为MedFocus的新方法,通过模拟“遮蔽测试”将归因准确率提升至现有技术的数倍。
研究团队构建的测试框架揭示了医学AI可信度危机的根源。传统归因方法分为四类:基于梯度的方法通过像素变化敏感度推断重要性;基于注意力的方法直接读取AI内部权重;基于扰动的方法遮蔽图像区域观察判断变化;基于提示的方法询问AI自身关注点。但这些方法在真实临床场景中表现堪忧——在胸部X光数据集上,基于注意力的方法交并比(IoU)仅2.7%,梯度加权注意力方法虽召回率达99.9%但精确率不足40%,意味着其标记的重要区域包含大量无关信息。
为建立科学评估体系,研究团队开发了MedGround-Bench数据集。该数据集从ImaGenome、VinDR-CXR和PadChest-GR三个公开数据集中筛选样本,通过三轮因果验证确保每个案例的AI判断确实依赖专家标注的病变区域:首先排除AI回答错误的案例;其次遮蔽病变区域验证判断是否改变;最后修改背景区域排除干扰因素。最终形成的测试集包含直接回答模式1880例、逐步推理模式2060例,覆盖六种不同AI模型。
MedFocus方法的核心创新在于采用外部干预替代内部参数分析。该方法将胸片划分为心脏轮廓、左右肺等11个解剖区域,通过非均衡最优传输技术实现区域精准对齐,再逐个遮蔽区域观察AI置信度变化。测试显示,该方法在ImaGenome数据集上达到54.24%的IoU,较现有最佳技术提升近50%;在逐步推理模式下仍保持52.95%的准确率,且不依赖AI内部结构的设计使其具有更强的场景适应性。
研究对六种开源视觉语言模型的对比分析揭示了医学专科训练的重要性。专门针对医学场景训练的MedGemma系列模型,其归因质量较同规模通用模型Gemma3提升近50%;模型规模效应在逐步推理任务中更为显著,70亿参数的Qwen2.5-VL模型归因准确率较30亿参数版本提升12个百分点。值得注意的是,当AI被要求生成详细推理过程时,其视觉关注点更集中于解剖学相关区域,失败率较直接回答模式下降27%。
新方法的局限性同样值得关注。MedFocus当前使用的11个解剖区域对小结节等精细病变的定位能力有限,计算耗时较最快方法增加3倍。但消融实验证实,其边界框遮蔽策略较精确分割掩码更有效,概念定位采用的最优传输技术较文本检测方法在精确率与召回率间取得更好平衡。研究团队已公开代码与数据集,为后续优化提供基础。
这项研究对临床实践具有直接指导意义。当前多数医院部署的AI诊断系统,其配套解释功能在严格测试中表现不佳,可能误导医生判断。MedFocus输出的解释包含空间定位、解剖名称及推理链影响程度三层信息,例如“AI判断主要依赖右肺区域,遮蔽后置信度下降62%”,这种结构化解释更符合临床验证逻辑。研究团队强调,医学AI评估需建立“正确率”与“可解释性”的双重标准,现有技术在这两个维度仍存在显著差距。
对于普通用户而言,该研究揭示了AI医疗应用的深层挑战:当系统声称发现病变时,用户有权追问“具体位置是否准确”而非仅满足于“判断是否正确”。随着MedGround-Bench测试框架和MedFocus归因方法的公开,开发者将获得更严格的评估工具,这或许能推动医学AI从“可用”向“可信”的关键跨越。完整研究论文及代码可通过arXiv编号2605.20158获取。











