谷歌近日正式发布两款医疗领域专用AI模型——升级版多模态医疗分析模型MedGemma 1.5与医疗语音识别模型MedASR,旨在为全球开发者提供更强大的医疗AI开发工具包。这两款模型已同步开放研究及商业使用权限,开发者可通过Hugging Face平台或谷歌云Vertex AI获取相关资源。
作为MedGemma系列的迭代产品,1.5版本在原有文本处理能力基础上,新增对CT、MRI及全片病理图像等三维医疗影像的支持。该模型特别强化了胸部X光影像的序列分析能力,可精准定位解剖结构并自动提取实验室报告关键数据。内部测试数据显示,新版本在医疗影像分类、病灶检测等任务中的准确率较前代提升超过30%,尤其在处理复杂病理切片时表现出显著优势。
同步推出的MedASR模型专注解决医疗场景下的语音转录难题。通过专项训练,该模型在胸部X光报告转写任务中将错误率降低58%,在涵盖外科、内科等12个专科的语音转写测试中,错误率降幅达82%。其与MedGemma 1.5的深度整合,使得开发者能够构建从语音输入到影像分析的全流程医疗AI应用。
为推动医疗AI创新,谷歌同步启动MedGemma Impact Challenge全球开发者竞赛,设立10万美元奖金池。参赛者需基于这两个模型开发具有实际应用价值的医疗解决方案,优秀作品将获得资金支持及谷歌技术团队的专业指导。竞赛特别强调方案的伦理合规性,要求所有应用必须通过临床验证流程。
谷歌在发布说明中特别强调,这两款模型属于技术基础组件,开发者需根据具体医疗场景进行适应性调整。模型生成的诊断建议、影像分析结果等输出内容,必须经过专业医疗人员审核确认后方可用于临床实践,严禁直接替代医生决策。公司同时承诺将持续优化模型性能,并逐步扩大可处理的医疗数据类型范围。









