滚动资讯

当前位置：首页 > 资讯 > 手机快报 > 正文内容

从“生成”到“理解”的跨越：浙大等团队打造的DiGSeg如何重塑图像分割？

时间：2026-05-13 02:19:02 来源：互联网编辑：快讯 IP：北京 发表评论无障碍通道

图像分割技术，这一在无人驾驶、医学影像分析和手机摄影等领域广泛应用的技术，正迎来一场革新。由国内多所顶尖高校联合开展的研究，提出了一种基于扩散模型的新方法，有望突破传统图像分割的局限，实现更广泛的应用场景。

扩散模型，作为当前AI绘图工具的核心技术，其原理是通过逐步添加噪点破坏清晰图像，再训练模型将其还原。这一过程看似与图像分割无关，但研究人员发现，模型在反复训练中积累了丰富的视觉知识，包括物体轮廓、颜色分布和语义关联等。这些知识若加以利用，完全可能转化为强大的图像分割能力。

传统图像分割模型面临一个长期难题：每处理一类新任务，就需要重新训练一个专用模型。例如，识别农田杂草的模型无法直接用于分析医学影像，城市道路分割模型换到乡村场景就失效。研究人员试图构建一个通用分割系统，但始终未能突破技术瓶颈。此次研究提出的DiGSeg系统，通过改造扩散模型，为这一难题提供了新思路。

DiGSeg的核心创新在于将扩散模型从“生成器”转变为“理解器”。研究团队没有沿用以往通过注意力地图间接获取分割结果的方法，而是直接训练模型输出精准的分割掩模。这一过程分为三个关键步骤：首先，利用扩散模型自带的编解码器，将输入图像和分割标注转换为紧凑的潜在表示，提高处理效率；其次，引入CLIP技术，使模型能够理解文字描述与图像内容的对应关系，支持开放词汇分割；最后，对去噪U-Net进行微调，使其在图像和文字信息的双重引导下，逐步还原出正确的分割标注。

在训练阶段，研究团队冻结了扩散模型的大部分参数，仅调整交叉注意力层和小型投影层，保留了模型原有的视觉理解能力。同时，他们设计了一种“多分辨率退火噪点”策略，通过混合不同粗细的噪点，帮助模型同时学习精细边界和大范围语义结构。实验表明，这种噪点配方显著提升了分割边界的平滑度和准确性。

实际应用中，DiGSeg的表现令人瞩目。在开放词汇分割测试中，使用CLIP ViT-L/14模型时，DiGSeg在五个常用基准数据集上的mIoU指标均超过此前最佳方法，最高提升达2.8个百分点。即使使用轻量级CLIP ViT-B/16模型，其性能依然领先。在闭集语义分割任务中，DiGSeg在COCO和ADE20K数据集上的mIoU分别达到50.8和58.6，刷新了记录。更值得一提的是，在遥感道路提取和农业图像分割等跨领域任务中，DiGSeg未经任何调整便取得了优异成绩，证明其通用性并非虚言。

然而，DiGSeg并非完美无缺。在医学图像分割任务中，其表现远不及专用模型。研究人员指出，这是因为CLIP的训练数据中医学影像极少，导致系统对专业术语的理解能力不足。作为扩散模型，DiGSeg的推理速度较慢，最快配置下每秒仅能处理约11张图片，难以满足实时应用需求。不过，研究团队认为，随着扩散模型加速技术的发展，这一问题有望得到解决。

数据效率是DiGSeg的另一大优势。实验显示，即使仅使用ADE20K数据集四分之一的训练量，系统性能下降幅度极小。这一特性对于标注成本高昂的领域，如医学和农业，具有重要意义。研究团队还发现，训练数据与目标任务的相关性比数据量更重要。例如，仅用ADE20K训练的模型，在城市驾驶场景数据集上的表现优于混合COCO数据训练的模型。

DiGSeg的研究为图像分割领域开辟了新方向。它表明，生成模型与理解模型之间的界限并非不可逾越，通过合理改造，生成模型积累的视觉知识可以高效迁移到理解任务中。这一思路或许能减少对大量专属标注数据的依赖，为专业领域的应用带来实际节省。目前，该研究的完整论文已上传至arXiv平台，编号为2604.24575，感兴趣者可查阅获取更多细节。

更多>同类资讯

微信“状态浏览人数”功能引热议已停测华为nova 16系列等新品全家桶曝光

05-13

realme 16T海外将发：8000mAh大电池+45W快充，游戏续航表现亮眼

05-13

vivo S60新机入网在即：影像续航双飞跃，中端市场再添实力悍将

05-13

天玑2nm旗舰芯片参数曝光，全大核架构性能飙升，新机九月或登场

05-13

iOS 26.5正式版发布：RCS加密、地图升级，欧盟生态开放等多项实用功能来袭

05-13

三星7月携安卓首款阔折叠旗舰来袭，对标华为，万元售价能否搅动市场？

05-13

华为新品全家桶来袭！手机平板手表配置细节全揭秘

05-13

海盗船SCUF Omega PS5手柄正式登场：获索尼官方授权 1K回报率带来低延迟体验

05-13

苹果macOS 26.5 Tahoe系统更新：部分Mac接电自启，外接配件可控电源

05-12

华为新品全家桶来袭：nova 16系列手机、MatePad Pro Max平板等重磅登场

05-12

红魔11S Pro+即将发布：透明机身配独家风冷水冷安卓性能新巅峰

05-12

2026高端旗舰手机怎么选？Find X9 Ultra凭全能实力，成质感影像续航AI优选

05-12

2026年暗光夜景手机怎么选？OPPO Find X9 Ultra携哈苏影像领衔，多款旗舰横评

05-12

预算7000-10000元选机指南：OPPO Find X9 Ultra，商务旅行毕业旅拍全能适配

05-12

华为畅享 90 Pro Max 迎鸿蒙大更新：图库游戏车联全升级，体验飙升

05-12

点击查看更多 +

全站最新

李想谈AI芯片变革：理想自研马赫M100亮相，四年前选择获强悍验证

比亚迪第三代元PLUS 5月21日上市续航630公里配二代刀片电池与智驾系统

中央网信办推进短视频规范标注 6类必选标签成发布“硬门槛”

微信状态内测“访客记录”引网友热议隐私边界与社交自由成焦点

智启教育新程：数智技术赋能全球教育多元创新与均衡发展

广汽丰田铂智3X：14个月销量破10万蝉联8月销冠香港市场也表现亮眼

热门内容

本栏最新

零跑计划2027年推高端品牌：底气何在？破局之路怎么走？

奥迪Q9内饰首秀：家族式设计吸睛 6座7座可选配置丰富

2026年4月MPV销量揭晓岚图梦想家7017辆夺冠智驾舒适动力全在线

奥迪Q9内饰首秀：三屏设计配怀挡 6座7座可选配置丰富亮点足

2026年4月MPV销量出炉岚图梦想家凭7017辆成绩强势登顶销量冠军

四年沉淀铸就硬核实力岚图梦想家连获质量大奖彰显品质担当

本网站LOGO小熊标志受版权保护，版权登记号：鲁作登字-2015-F-025467，未经ITBEAR比尔科技官方许可，严禁使用。
声明：本网站是公益性科普网站，为网友提供科技类资讯内容，无障碍技术由太阳湾捐增，为阅读障碍用户提供内容听读服务。如本站内容侵犯了您的权利，请通知我们及时删除。
中国（山东）自由贸易试验区鲁ICP备11015305号-1 联系入口
Copyright © 比尔科技 2007-2024 ITBEAR.COM.CN All rights reserved.