美国麻省总医院MESH孵化器团队近日完成一项关于生成式人工智能临床推理能力的研究,相关成果发表于《JAMA Network Open》期刊。研究指出,尽管人工智能在医疗领域的应用不断深入,但在模拟真实诊疗场景时,其逻辑推理能力仍存在明显不足,目前尚无法独立承担临床诊疗任务。
该研究选取了21种主流大语言模型,包括ChatGPT、DeepSeek、Claude、Gemini和Grok等,通过29个真实临床病例进行多轮测试。测试过程中,研究人员逐步提供患者症状、实验室检查结果和影像资料,以还原医生动态诊疗过程。结果显示,在掌握完整信息的情况下,所有模型的最终诊断准确率均超过90%。然而,在“鉴别诊断”这一关键环节,超过80%的模型表现不佳,难以对多种潜在疾病进行系统性分析和筛选。
为评估模型的综合表现,研究团队设计了PrIME-LLM评价指标体系,涵盖诊断、检查决策和治疗方案制定等全流程。评测数据显示,各模型的综合得分在64%至78%之间,表明人工智能更擅长在信息完备时给出结论,但在信息不充分的情况下进行开放性逻辑推演的能力较弱。
研究团队特别指出,尽管新一代模型在处理复杂数据方面较旧版本有所提升,但大语言模型目前仍应定位为辅助工具。在缺乏专业监督的情况下直接应用于临床实践,可能带来潜在风险。这一发现为人工智能医疗技术的发展提供了重要参考,强调从简单结果匹配向复杂逻辑推理的转变,是医疗大模型实现专业化应用的关键挑战。











