医学人工智能领域正经历一场关键变革,传统模型依赖单一视觉输入生成答案的模式正在被颠覆。上海创智学院LeapQuest团队联合浙江大学、上海交通大学、复旦大学的研究人员,在ICML 2026会议上提出两项突破性成果,首次将动态视觉交互机制引入医学诊断系统,开创了"视觉思维"新范式。
传统医学多模态模型存在根本性缺陷:虽然能生成看似合理的解释,但面对微小病灶、组织边界变化或短暂手术动作等关键证据时,常因被动接收视觉信息导致误判。研究团队指出,医学诊断的特殊性在于每个结论都需要完整的证据链,而现有模型缺乏主动验证机制,如同"纸上谈兵"的医生。
针对图像诊断的Ophiuchus系统构建了智能视觉代理框架,通过集成SAM2分割工具、BiomedParse结构定位器和Zoom-in放大模块,使模型能根据推理需求主动调用外部工具。该系统创新性地将工具调用过程纳入推理链,工具返回的观察结果会驱动后续判断,形成"观察-推理-再观察"的闭环。实验数据显示,在8个医学视觉问答基准测试中,70亿参数的Ophiuchus模型以68.0分的平均成绩超越GPT-5等闭源系统,工具调用准确率达97.9%。
面向临床长视频的MedScope系统则解决了时序证据获取难题。该系统模拟医生观察习惯,先建立全局认知,再通过视频裁剪和关键帧提取聚焦可疑时段。研究团队构建的ClinVideoSuite数据集包含63.5万条带时间戳的描述、25.4万个证据关联问答和3.4万条视觉思维轨迹,为模型提供了丰富的训练素材。通过三阶段强化学习训练,MedScope在多粒度视频理解任务中取得开源模型最佳成绩,移除证据奖励机制后定位质量显著下降,验证了动态证据验证的重要性。
两项研究共同定义了医学AI的新标准:视觉信息不再仅作为输入,而是成为思维过程的组成部分。这种转变使模型推理从静态语言生成升级为动态证据探索,在放射科病灶分析、病理细胞识别、手术操作复核等场景中展现出独特优势。研究团队强调,新范式的核心价值在于构建了可解释、可追溯的决策路径,模型不仅能回答问题,还能展示支撑结论的完整证据链。
当前医学AI发展面临关键转折点,单纯追求参数规模和语言生成能力已触及瓶颈。Ophiuchus和MedScope的实践表明,通过构建视觉工具与推理引擎的深度耦合,能够突破传统模型的认知局限。这种交互式证据验证机制,为开发临床可信AI提供了新思路,有望推动医学人工智能从辅助工具向诊疗伙伴的角色转变。












