医学AI诊断不再“雾里看花”：弗吉尼亚大学团队解锁归因新路径

时间：2026-05-27 16:55:57 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

当医生指着X光片说“这里有问题”时，患者能直观理解诊断依据；而当人工智能系统给出类似判断时，其决策过程却常被形容为“黑箱操作”。弗吉尼亚大学与美国国立卫生研究院联合开展的研究显示，现有医学AI的“解释功能”普遍存在可靠性缺陷，在严格测试条件下，11种主流归因方法均无法准确指出AI判断所依赖的图像区域。这项发表于arXiv平台的研究（编号2605.20158）同时提出名为MedFocus的新方法，通过模拟“遮蔽测试”将归因准确率提升至现有技术的数倍。

研究团队构建的测试框架揭示了医学AI可信度危机的根源。传统归因方法分为四类：基于梯度的方法通过像素变化敏感度推断重要性；基于注意力的方法直接读取AI内部权重；基于扰动的方法遮蔽图像区域观察判断变化；基于提示的方法询问AI自身关注点。但这些方法在真实临床场景中表现堪忧——在胸部X光数据集上，基于注意力的方法交并比（IoU）仅2.7%，梯度加权注意力方法虽召回率达99.9%但精确率不足40%，意味着其标记的重要区域包含大量无关信息。

为建立科学评估体系，研究团队开发了MedGround-Bench数据集。该数据集从ImaGenome、VinDR-CXR和PadChest-GR三个公开数据集中筛选样本，通过三轮因果验证确保每个案例的AI判断确实依赖专家标注的病变区域：首先排除AI回答错误的案例；其次遮蔽病变区域验证判断是否改变；最后修改背景区域排除干扰因素。最终形成的测试集包含直接回答模式1880例、逐步推理模式2060例，覆盖六种不同AI模型。

MedFocus方法的核心创新在于采用外部干预替代内部参数分析。该方法将胸片划分为心脏轮廓、左右肺等11个解剖区域，通过非均衡最优传输技术实现区域精准对齐，再逐个遮蔽区域观察AI置信度变化。测试显示，该方法在ImaGenome数据集上达到54.24%的IoU，较现有最佳技术提升近50%；在逐步推理模式下仍保持52.95%的准确率，且不依赖AI内部结构的设计使其具有更强的场景适应性。

研究对六种开源视觉语言模型的对比分析揭示了医学专科训练的重要性。专门针对医学场景训练的MedGemma系列模型，其归因质量较同规模通用模型Gemma3提升近50%；模型规模效应在逐步推理任务中更为显著，70亿参数的Qwen2.5-VL模型归因准确率较30亿参数版本提升12个百分点。值得注意的是，当AI被要求生成详细推理过程时，其视觉关注点更集中于解剖学相关区域，失败率较直接回答模式下降27%。

新方法的局限性同样值得关注。MedFocus当前使用的11个解剖区域对小结节等精细病变的定位能力有限，计算耗时较最快方法增加3倍。但消融实验证实，其边界框遮蔽策略较精确分割掩码更有效，概念定位采用的最优传输技术较文本检测方法在精确率与召回率间取得更好平衡。研究团队已公开代码与数据集，为后续优化提供基础。

这项研究对临床实践具有直接指导意义。当前多数医院部署的AI诊断系统，其配套解释功能在严格测试中表现不佳，可能误导医生判断。MedFocus输出的解释包含空间定位、解剖名称及推理链影响程度三层信息，例如“AI判断主要依赖右肺区域，遮蔽后置信度下降62%”，这种结构化解释更符合临床验证逻辑。研究团队强调，医学AI评估需建立“正确率”与“可解释性”的双重标准，现有技术在这两个维度仍存在显著差距。

对于普通用户而言，该研究揭示了AI医疗应用的深层挑战：当系统声称发现病变时，用户有权追问“具体位置是否准确”而非仅满足于“判断是否正确”。随着MedGround-Bench测试框架和MedFocus归因方法的公开，开发者将获得更严格的评估工具，这或许能推动医学AI从“可用”向“可信”的关键跨越。完整研究论文及代码可通过arXiv编号2605.20158获取。

邬院士指出，从发展机遇层面来看，智能体技术将从底层价值、工具架构、产业普惠三个维度重塑工业互联网平台的发展形态。当前，以大模型为代表的新一代人工智能技术快速发展，工业智能正在成为工业互联网创新演进的重要方向…

2026全球数字经济大会彻底跳出传统论坛走过场、重形式轻实效的固有模式，以真实线下多元场景为核心载体，联动全球政府机构、国际组织、头部科技企业、初创科创团队、产业资本、普通市民全链条产业资源，打通实验室前沿…

A：本届峰会上，生成式 AI 是绝对的焦点话题，讨论主要集中在如何利用云资源推动生成式 AI 的普及与发展，包括云基础设施对 AI工作负载的支撑能力、大语言模型的部署方式，以及云服务商如何将 AI 能力整…

当时的活动中还介绍称，HarmonyOS6终端设备数突破6600万、覆盖设备款数100+，1100万注册开发者、40万+可获取应用和服务。据悉，全新的华为 Mate90 系列将搭载全新的HarmonyOS…

宇树科技2016年成立于杭州，全球首发了多项人形机器人产品，2025年纯人形机器人出货量超500台，位居全球第一。宇树科技的做法是“核心自研+国产协同”，整体国产化率已超85%。当下看，这才是“人形机器…

在南山机器人谷内，上下游企业高度集聚，形成“上下楼即上下游”的产业格局，企业可在半小时车程内配齐机器人全部核心零部件，实现研发打样当日闭环。乐聚机器人相关负责人表示，本地可快速完成机器人研发到中试量产的全流程…

与通用人形机器人不同，这些公司更注重为机器人打造接近人类的面孔、皮肤、声音与体温，并训练其情绪交互能力，将其定义为“伙伴”甚至一种“新型关系”。这恰恰揭示了仿生机器人的复杂性：人明知它是一台机器，但面对高度…

观点网讯：7月3日，红旗连锁发布公告，拟终止机器人无人售货系统研发，同日其位于自贡市的川南区域配送中心正式投入运营。据介绍，该机器人无人售货系统研发项目于2025年启动，经过一年多努力取得一定实践成果，但…

机器人大讲堂认为，钢镚L2的发布，本质是智身科技在树立行业级四足机器人的产品形态标准：标准化交付形态、必备核心能力、场景对接方案。从行业发展阶段看,当前四足机器人仍处在落地应用早期，市场更需要可快速验证价…

这几天，当地的62.3万亩制种玉米进入去雄期，由于高温天气来袭，玉米的抽穗和花期都有所提前。据了解，这台玉米去雄机器人搭载了北斗高精度导航系统、AI智能识别系统与多组高清视觉摄像头，可以规划线路、灵活避障、精…

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.