中国科学院深圳先进技术研究院数字所的董超研究员团队近日宣布了一项图像复原领域的重大突破,他们成功研发出名为HYPIR的图像复原大模型。这一创新技术不仅在速度上较现有方法快了数十倍,还在图像质量、文字清晰度、理解用户意图及操作灵活性等多个维度上实现了显著提升。
在图像复原领域,传统的基于预训练扩散模型的技术虽然在一定程度上提升了复原效果,但高昂的计算成本、缓慢的推理速度、巨大的训练资源消耗以及生成结果可控性不足等问题,一直困扰着该技术的发展。董超团队此前推出的智能画质增强大模型SUPIR,已经能够在一定程度上恢复低质量图像至接近原始高清状态,但HYPIR作为升级版,性能更为出色。
HYPIR摒弃了迭代式的扩散模型训练方式,转而采用单步的对抗生成模型训练,这一改变使得算法速度大幅提升。同时,团队还引入了最新的文生图基模型,进一步增强了算法效果,实现了8K级别的细节生成。在图像稳定性和可控性方面,HYPIR远超SUPIR。
董超研究员介绍,HYPIR的两个核心创新点在于:一是利用预训练扩散模型初始化复原网络,二是从理论上深入剖析了这一方法的深层原理。实验数据显示,在单张显卡上,HYPIR仅需1.7秒即可完成1024x1024分辨率图像的复原,性能远超现有方法。HYPIR还能适用于各种尺寸的预训练扩散模型,为不同应用场景提供了极大的灵活性。
在应用层面,HYPIR的表现同样令人瞩目。在高分辨率图像修复领域,HYPIR成功攻克了传统方法生成8K分辨率图像时速度慢或效果不佳的难题。在老照片修复方面,HYPIR能够重现模糊影像的清晰细节,为文化传承提供了有力支持。同时,HYPIR在文字保真方面也展现出卓越性能,无论是简单标识还是复杂文档,都能精准还原文字原始形态,确保图像中的文字清晰可读。
更令人称道的是,HYPIR还具备突出的自然语言理解能力。它能够精准捕捉和理解用户输入指令,在图像复原过程中准确反映用户意图。用户还可以根据需求灵活调节生成与复原的平衡,或精细控制图像细节程度,从而获得满足个人偏好的复原结果。
HYPIR不仅展现了图像修复技术上的创新性,更体现了对实际应用需求的深刻理解。这一技术的突破,将为文化传承与保护、影视修复、高分辨率图像生成等领域提供全新的解决方案。