在遥感图像分析领域,一项突破性研究为卫星和航拍图像的自动识别带来了全新思路。西安交通大学的研究团队与中科院合作,首次将最新发布的SAM 3模型应用于开放词汇语义分割任务,开发出名为SegEarth-OV3的创新系统。该系统能够通过文字描述识别任意地物类型,无需针对新类别重新训练模型,解决了传统方法在遥感图像分析中的核心难题。
传统遥感图像识别系统存在显著局限性。这类系统如同只能识别预设商品的收银机,仅能处理训练阶段见过的固定类别。当遇到未在训练集中出现的地物类型时,系统便会完全失效。更严峻的是,遥感图像具有独特视觉特征:从高空俯瞰时,同类地物常呈现密集分布状态,如停车场中的车辆或住宅区的房屋,这些密集小目标容易相互粘连;而道路、农田等大面积区域又需要保持空间连续性,不能被分割得支离破碎。这些特性使得传统方法在处理遥感图像时面临双重挑战。
研究团队通过深入分析发现,现有解决方案多基于CLIP模型架构,该模型原本设计用于整张图像的分类任务。当被强制应用于像素级分割时,CLIP模型会产生边界模糊的输出结果。尽管研究者尝试通过组合多个模型构建复杂流水线系统,但这种方案不仅计算成本高昂,还在模块衔接处存在性能损耗。研究团队意识到,需要开发专门设计的统一模型架构来突破现有瓶颈。
SAM 3模型的发布为研究提供了关键突破口。这个由meta公司开发的新模型具有独特的解耦架构,包含三个核心组件:精确的实例分割头、连续的语义分割头,以及专门的存在性判断头。这种设计使模型既能像侦探般精准定位独立目标,又能如画家般描绘大面积区域的连续性,还能预测特定概念在图像中的存在概率。研究团队巧妙利用这些特性,构建了针对遥感图像特性的双头融合策略。
双头融合策略的核心在于充分发挥不同组件的专长。实例分割头专门处理建筑物、车辆等具有清晰边界的独立物体,即使在密集排列场景下也能准确识别每个目标;语义分割头则专注于道路、农田等连续区域,确保这些地物的空间完整性。在具体实现中,系统首先通过实例分割头生成多个候选目标,然后根据置信度权重进行聚合;接着让实例聚合结果与语义分割结果在每个像素位置进行竞争,选择置信度更高的预测作为最终输出。这种机制使得系统既能精确分割小目标,又能保持大面积区域的连贯性。
针对开放词汇设置下的特殊挑战,研究团队设计了存在性过滤机制。遥感图像分析常需处理包含全球地物类型的庞大词汇表,但单张图像实际覆盖范围有限,导致大量类别在当前场景中根本不存在。这种词汇规模与视野范围的严重不匹配,容易引发误检测问题。SAM 3模型的存在性判断头通过预测每个概念的全局存在概率,为系统提供了关键过滤依据。研究团队采用软门控机制,将存在性分数与分割概率图相乘,有效抑制了不可能出现的类别,同时保留了真实存在的地物信息。
实验验证环节,研究团队在17个不同遥感数据集上进行了全面测试,这些数据集涵盖城市、农村、海洋、山地等多种地理环境,以及不同成像条件和分辨率水平。测试结果显示,SegEarth-OV3在多类别语义分割任务中达到53.4%的mIoU(平均交并比),较之前最佳方法提升12.7个百分点。更引人注目的是,该系统在多个数据集上超越了需要完整训练数据的监督学习基线:在UDD5数据集上达到71.7%的mIoU,在VDD数据集上达到64.5%的mIoU,分别超出对应基线15.2和1.6个百分点。这种表现揭示了大规模预训练模型蕴含的丰富语义知识,在某些情况下能够超越专门针对小数据集训练的模型。
在建筑物提取专项测试中,SegEarth-OV3展现出显著优势。在WHU-Aerial数据集上,系统达到86.9%的IoU(交并比),较之前最佳方法提升37.7个百分点;在Inria数据集上达到72.4%的IoU,提升27.8个百分点。道路提取任务同样验证了方法的有效性,系统在CHN6-CUG数据集上实现49.6%的IoU,在保持道路连续性方面取得显著进步。这些突破性成果表明,双头融合策略成功解决了小目标精确分割与大面积区域完整性保持之间的矛盾。
消融实验进一步证实了各技术组件的价值。在包含多种地物类型的LoveDA数据集上,仅使用实例头的方案获得32.2%的mIoU,仅使用语义头的方案获得35.4%的mIoU,而双头融合方案达到47.4%的mIoU,提升幅度达12.0个百分点。这种互补效应在不同类型数据集上均有体现:在以建筑物提取为主的xBD数据集上,实例头表现更优(61.4% IoU),但双头融合仍能进一步提升至64.3% IoU。存在性过滤机制在包含大量类别的场景中作用尤为显著,有效减少了误检测现象。
为验证方法的通用性,研究团队还在Pascal VOC20、COCO Stuff和Cityscapes等标准自然图像数据集上进行了测试。结果显示,SegEarth-OV3在Pascal VOC20上达到96.8%的mIoU,超越之前最佳训练无关方法(91.8%)和需要训练的CAT-Seg方法(94.6%);在Cityscapes数据集上达到69.7%的mIoU,较之前最佳结果提升18.6个百分点。这些成果表明,该研究提出的解耦架构适配策略具有广泛适用性,不仅限于遥感图像分析领域。
在技术实现层面,研究团队采用SAM 3的Perception Encoder-Large+骨干网络,将输入图像统一调整为1008×1008分辨率。文本提示直接从类别名称生成,并为某些类别添加同义词以增强鲁棒性。系统推理流程简洁高效:对词汇表中的每个类别,依次生成存在性分数、语义概率图和实例预测集合;通过加权最大值操作完成实例聚合;采用逐像素最大值选择策略实现双头融合;最后通过软门控机制调节各类别输出强度。整个系统完全依赖预训练权重,无需任何测试时间训练或微调,具有极强的实用性。
这项研究为遥感图像分析开辟了新路径。通过将通用视觉基础模型与领域特定挑战相结合,研究团队展示了如何充分发挥大规模预训练模型的潜力。开放词汇能力使得系统能够灵活适应不断变化的分析需求,用户只需更新文本描述即可分析新出现的地物类型,无需重新收集标注数据。这种灵活性在城市规划、环境监测、灾害应急响应等领域具有重要应用价值,有望显著降低遥感图像分析的技术门槛,推动相关技术的普及应用。











