苏黎世华人博士提出模型SwinIR,只用33%的参数量就碾压图像修复领域sota

简介: 参数量和模型的性能有绝对关系吗?苏黎世华人博士提出SwinIR模型,实验结果告诉你,越小的模型还可能更强!SwinIR使用Transformer力压CNN,又在图像修复领域屠榜,模型参数量降低67%,再也不要唯参数量论英雄了!

图像修复(image restoration)是一个受到长期关注和研究的最基础的CV问题,它能够从低质量的图像,例如缩略图、有噪音的图或是压缩图像中恢复为原始高质量图像。 但目前图像修复领域的sota方法都是基于卷积神经网络CNN的,但是很少有人尝试使用Transformer,尽管ViT在高级视觉任务中早已占据排行榜多年。 来自苏黎世联邦理工学院的华人博士提出一个适用于图像修复的模型SwinIR,主要包括浅层特征提取、深层特征提取和高质量图像重建三部分。
实验结果证明SwinIR的性能比目前sota方法提高了0.14-0.45dB,并且参数量还降低了67%。 

1.jpg论文地址:https://arxiv.org/abs/2108.10257项目地址:https://github.com/JingyunLiang/SwinIR
大多数基于CNN的方法侧重于精细的架构设计,如residual learning和dense learning,通过巧妙的模型设计来提升性能,增大模型容量。 虽然与传统的基于模型的方法相比CNN的性能有了显著的提高,但通常会遇到两个源于卷积层的基本问题
1)图像和卷积核之间的交互与内容无关。使用相同的卷积核来恢复不同的图像区域可能不是最佳选择;2)由于CNN更关注局部特征,所以卷积对于长依赖性、全局的特征建模是效果不好。 在这种情况下,很容易想到Transformer来替代CNN。Transformer的自注意力机制能够很好地捕获上下文之间的全局交互,并在多个视觉任务上具有出了良好的表现。 然而,用于图像修复的ViT需要将输入图像分割为具有固定大小(例如48×48)的patch,并对每个部分进行单独处理。 这种策略不可避免地会产生两个缺点:
1)边界像素不能利用块外的相邻像素进行图像恢复;2)恢复的图像可能会在每个图像块周围引入边界伪影。
虽然这个问题可以通过patch重叠来缓解,但它会带来额外的计算负担。

模型设计


SwinIR的设计基于Swin Transformer,包括三个部分: 2.jpg1)浅层特征抽取shallow feature extraction 浅层特征提取模块采用卷积层提取浅层特征,并将浅层特征直接传输到重构模块,以保留低频信息。 2)深层特征抽取deep feature extraction 深层特征提取模块主要由residual Swin Transformer Block(RSTB)组成组成,每个块利用多个Swin Transformer layer(STL)进行局部注意力和交叉窗口的交互。此外,还在块的末尾添加一个卷积层以增强特征,并使用残差连接为特征聚合提供快捷方式,也就是说RSTB由多个STL和一个卷积层共同构成残差块, 3)高质量图像重建high-quality(HQ) image reconstructi 重建模块是最后一步,融合了浅层和深层特征用了恢复高质量的图像。 在实验方面,作者首先研究了通道数,RSTB数目和STL数目对结果的影响。可以观察到PSNR与这三个超参数正相关。对于信道数,虽然性能不断提高,但参数量呈二次增长。为了平衡性能和模型尺寸,在剩下的实验中选择180作为通道数。对于RSTB数和层数,性能增益逐渐饱和,所以后续实验设置为6以获得一个相对较小的模型。3.jpg和经典的图像超分辨率(super-resolution, SR)模型对,包括DBPN、RCAN、RRDB、SAN、IGNN、HAN、NLSA和IPT。可以看出,当在DIV2K数据上进行训练时,SwinIR在几乎所有五个基准数据集的所有比例因子上都取得了最佳性能,在Manga109在4倍缩放上的最大PSNR增益达到0.26dB。 不过需要注意的是,RCAN和HAN引入了通道和空间注意力,IGNN提出了自适应patch特征聚合,NLSA基于非局部注意机制。所有这些基于CNN的注意机制的表现都不如所提出的基于Transformer的SwinIR,这也表明了文中所提出模型的有效性。 4.jpg当在更大的数据集(DIV2K+Flickr2K)上训练SwinIR时,性能进一步大幅度提高,也实现了比基于Transformer的模型IPT更好的精度,达到0.47dB。即使IPT在训练中使用ImageNet(超过一百三十万图像),并且具有超过一亿的参数。相比之下,即使与基于CNN的sota模型相比,SwinIR的参数也很少(1500万-4430万)。 在运行时方面,与基于CNN的代表性的模型RCAN相比,IPT和SwinIR在1024×1024分别需要约0.2、4.5和1.1秒。

实验结果


从可视化结果来看,SwinIR可以恢复高频细节并减轻模糊瑕疵,并产生锐利且自然的边缘。

相比之下,大多数基于CNN的方法会产生模糊的图像,甚至是不正确的纹理。与基于CNN的方法相比,IPT生成的图像更好,但它存在图像失真和边界伪影。5.jpg在图像降噪任务上,比较的方法包括传统模型BM3D和WNNM,基于CNN的模型DnCNN,IR-CNN,FFDNet,N3Net,NLRN,FOC-Net,RNAN,MWCNN和DRUNet。可以看到SwinIR模型比所有方法都强。6.jpg特别是它在具有100个高分辨率测试图像的大型Urban100数据集上通过最先进的DRUNet模型,最高可达0.3dB,并且SwinIR只有1200万的参数,而DRUNet有三亿参数,也就能侧面证明SwinIR的架构在学习用于图像恢复的特征表示方面是高效的。7.jpgSwinIR模型可以去除严重的噪声干扰并保留高频图像细节,从而获得更清晰的边缘和更自然的纹理。相比之下,其他方法要么过于平滑,要么过于锐利,无法恢复丰富的纹理。

相关文章
|
机器学习/深度学习 编解码 IDE
用于低分辨率图像和小物体的新 CNN 模块SPD-Conv
用于低分辨率图像和小物体的新 CNN 模块SPD-Conv
用于低分辨率图像和小物体的新 CNN 模块SPD-Conv
|
7月前
|
数据采集 自然语言处理 NoSQL
利用中间件实现任务去重与分发精细化:股吧舆情数据采集与分析实战
本项目针对东方财富股吧设计精细化采集方案,解决重复采集、调度混乱与反爬等问题,构建舆情分析数据模型。通过采集帖子内容、用户行为与情绪信号,实现情绪趋势可视化、热点识别与个股预警,助力把握市场风向。
361 0
利用中间件实现任务去重与分发精细化:股吧舆情数据采集与分析实战
|
编解码 人工智能 并行计算
阿里妈妈技术开源FLUX图像修复&蒸馏加速模型
本文介绍了阿里妈妈技术团队基于FLUX开发的Controlnet修复模型和蒸馏加速模型,填补了社区空白并提升了FLUX的实用性和效率。
|
敏捷开发 测试技术 BI
禅道:从安装到使用,一篇文章带你全面了解
禅道:从安装到使用,一篇文章带你全面了解
3485 3
|
JSON 前端开发 JavaScript
成功解决:[object Object]
这篇文章讨论了在JavaScript中打印对象时出现的"[object Object]"问题的原因,并提供了使用`JSON.stringify()`方法将对象转换为字符串以便于打印和调试的解决方案。
成功解决:[object Object]
|
机器学习/深度学习 算法
生成对抗网络(Generative Adversarial Networks,简称GANs)
生成对抗网络(GANs)由Ian Goodfellow等人于2014年提出,是一种通过生成器和判别器的对抗训练生成逼真数据样本的深度学习模型。生成器创造数据,判别器评估真实性,两者相互竞争优化,广泛应用于图像生成、数据增强等领域。
1890 1
|
SQL 缓存 数据库
SQL慢查询优化策略
在数据库管理和应用开发中,SQL查询的性能优化至关重要。慢查询优化不仅可以提高应用的响应速度,还能降低服务器负载,提升用户体验。本文将详细介绍针对SQL慢查询的优化策略。
蜂窝网络中的频分多址(FDMA)与码分多址(CDMA)详解
蜂窝网络中的频分多址(FDMA)与码分多址(CDMA)详解
2373 11
|
机器学习/深度学习 编解码 算法
SwinFIR:用快速傅里叶卷积重建SwinIR和改进的图像超分辨率训练
SwinFIR:用快速傅里叶卷积重建SwinIR和改进的图像超分辨率训练
561 1
|
SQL 关系型数据库 MySQL
深入理解MySQL事务特性:保证数据完整性与一致性
深入理解MySQL事务特性:保证数据完整性与一致性
1861 1