图像分割技术,这一在无人驾驶、医学影像分析和手机摄影等领域广泛应用的技术,正迎来一场革新。由国内多所顶尖高校联合开展的研究,提出了一种基于扩散模型的新方法,有望突破传统图像分割的局限,实现更广泛的应用场景。
扩散模型,作为当前AI绘图工具的核心技术,其原理是通过逐步添加噪点破坏清晰图像,再训练模型将其还原。这一过程看似与图像分割无关,但研究人员发现,模型在反复训练中积累了丰富的视觉知识,包括物体轮廓、颜色分布和语义关联等。这些知识若加以利用,完全可能转化为强大的图像分割能力。
传统图像分割模型面临一个长期难题:每处理一类新任务,就需要重新训练一个专用模型。例如,识别农田杂草的模型无法直接用于分析医学影像,城市道路分割模型换到乡村场景就失效。研究人员试图构建一个通用分割系统,但始终未能突破技术瓶颈。此次研究提出的DiGSeg系统,通过改造扩散模型,为这一难题提供了新思路。
DiGSeg的核心创新在于将扩散模型从“生成器”转变为“理解器”。研究团队没有沿用以往通过注意力地图间接获取分割结果的方法,而是直接训练模型输出精准的分割掩模。这一过程分为三个关键步骤:首先,利用扩散模型自带的编解码器,将输入图像和分割标注转换为紧凑的潜在表示,提高处理效率;其次,引入CLIP技术,使模型能够理解文字描述与图像内容的对应关系,支持开放词汇分割;最后,对去噪U-Net进行微调,使其在图像和文字信息的双重引导下,逐步还原出正确的分割标注。
在训练阶段,研究团队冻结了扩散模型的大部分参数,仅调整交叉注意力层和小型投影层,保留了模型原有的视觉理解能力。同时,他们设计了一种“多分辨率退火噪点”策略,通过混合不同粗细的噪点,帮助模型同时学习精细边界和大范围语义结构。实验表明,这种噪点配方显著提升了分割边界的平滑度和准确性。
实际应用中,DiGSeg的表现令人瞩目。在开放词汇分割测试中,使用CLIP ViT-L/14模型时,DiGSeg在五个常用基准数据集上的mIoU指标均超过此前最佳方法,最高提升达2.8个百分点。即使使用轻量级CLIP ViT-B/16模型,其性能依然领先。在闭集语义分割任务中,DiGSeg在COCO和ADE20K数据集上的mIoU分别达到50.8和58.6,刷新了记录。更值得一提的是,在遥感道路提取和农业图像分割等跨领域任务中,DiGSeg未经任何调整便取得了优异成绩,证明其通用性并非虚言。
然而,DiGSeg并非完美无缺。在医学图像分割任务中,其表现远不及专用模型。研究人员指出,这是因为CLIP的训练数据中医学影像极少,导致系统对专业术语的理解能力不足。作为扩散模型,DiGSeg的推理速度较慢,最快配置下每秒仅能处理约11张图片,难以满足实时应用需求。不过,研究团队认为,随着扩散模型加速技术的发展,这一问题有望得到解决。
数据效率是DiGSeg的另一大优势。实验显示,即使仅使用ADE20K数据集四分之一的训练量,系统性能下降幅度极小。这一特性对于标注成本高昂的领域,如医学和农业,具有重要意义。研究团队还发现,训练数据与目标任务的相关性比数据量更重要。例如,仅用ADE20K训练的模型,在城市驾驶场景数据集上的表现优于混合COCO数据训练的模型。
DiGSeg的研究为图像分割领域开辟了新方向。它表明,生成模型与理解模型之间的界限并非不可逾越,通过合理改造,生成模型积累的视觉知识可以高效迁移到理解任务中。这一思路或许能减少对大量专属标注数据的依赖,为专业领域的应用带来实际节省。目前,该研究的完整论文已上传至arXiv平台,编号为2604.24575,感兴趣者可查阅获取更多细节。











