XPixel团队提出混合注意力机制HAT:Transformer超分性能大涨1dB

简介: XPixel团队提出混合注意力机制HAT:Transformer超分性能大涨1dB

image.png



【新智元导读】基于Transformer的大模型以及预训练技术近年来吸引了众多计算机视觉研究者的注意。其中的底层视觉任务,IPT [1], SwinIR [2], EDT [3]这三种方法也已经展现出了令人印象深刻的性能。


近日,来自澳门大学、中国科学院深圳先进技术研究院等机构的XPixel团队研究人员通过分析和实验指出,目前的方法无论是在模型设计,还是预训练策略上,都仍存在较大的提升空间。


团队主页:http://xpixel.group/


为此,作者提出了一种基于混合注意机制的Transformer (Hybrid Attention Transformer, HAT)。该方法结合了通道注意力,自注意力以及一种新提出的重叠交叉注意力等多种注意力机制。此外,还提出了使用更大的数据集在相同任务上进行预训练的策略。


论文链接:https://arxiv.org/abs/2205.04437

项目链接:https://github.com/chxy95/HAT

实验结果显示,本文提出的方法在图像超分辨率任务上大幅超越了当前最先进方法的性能(超过1dB),如图1所示。


图1. HAT与当前SOTA方法SwinIR和EDT的性能对比


HAL-L表示在HAT的基础上深度增加一倍的更大容量的模型。


分析


本文首先对不同方法的LAM [4]结果进行了对比。LAM是一种为SR任务设计的归因方法,它能够显示模型在进行超分辨率重建的过程中哪些像素起到了作用。


如下图2(a)所示,LAM图中红色标记点表示:模型在重建左上图红框标记块时,对重建结果会产生影响的像素(LAM结果下的值为DI值[4],它可以定量地反映被利用像素的范围。DI值越大,表示重建时利用的像素范围越大)。


一般来说,被利用像素的范围越大,重建的效果往往越好[4],该结论在对比基于CNN的方法EDSR与RCAN时可以得到明显体现。然而,当对比RCAN与基于Transformer的SwinIR方法时,却出现了结论相反的现象。


SwinIR取得了更高的PSNR/SSIM,但相比RCAN并没有使用更大范围的像素信息,并且由于其有限的信息使用范围,在蓝色框区域恢复出了错误的纹理。这与以往普遍认为Transformer结构是通过更好地利用long-range信息来取得性能优势的直觉是相悖的。


通过这些现象,本文认为:


1)SwinIR结构拥有更强的局部表征能力,能够使用更少的信息来达到更高的性能;


2)SwinIR依然有较大提升空间,如果更多的像素能够被利用,那么应该会取得更大的性能提升。


图2. (a) 不同网络结构的LAM结果对比;(b)SwinIR网络产生的块效应


除此之外,本文发现在SwinIR网络前几层产生的中间特征会出现明显的块状效应。这是由于模型在计算自注意力时的窗口划分导致的,因此本文认为现有结构进行跨窗口信息交互的方式也应该被改进。


方法


1)网络结构设计


HAT的整体架构采用了与SwinIR相似的Residual in Residual结构,如下图3所示。主要的不同之处在于混合注意力模块(Hybrid Attention Block, HAB)与重叠的交叉注意力模块(Overlapping Cross-Attention Block, OCAB)的设计。


其中对于HAB,本文采用了并联的方式来结合通道注意力和自注意力。通道注意力能够利用全局信息;自注意力具有强大的表征能力。HAB模块的目的在于能够同时结合这两者的优势。


图3. HAT的网络结构


对于OCAB的设计,本文使用了一种重叠的窗口划分机制,如下图4所示。


相对于原始基于窗口的self-attention中Q、K和V来自于同一个窗口特征,OCA中的K/V来自更大的窗口特征,这允许attention能够被跨窗口地计算,以增强相邻窗口间信息的交互。

图4. OCAB的网络结构


2)预训练策略


本文提出了一种直接使用相同的任务,但是使用更大的数据集(比如ImageNet)进行预训练的策略。


相比于之前用于超分任务的预训练方案,该策略更简单,但却能带来更多的性能增益。实验结果后面给出。


实验


1)更大的窗口尺寸


直接增加计算self-attention的窗口尺寸可以使模型能够利用更多的像素,并得到显著的性能提升。


表1和图5给出了对于不同窗口尺寸的定量和定性比较,可以看到16窗口尺寸有明显提升,HAT使用窗口尺寸16作为默认设置。


图5. 不同窗口尺寸的定性比较


2)消融实验


本文提供了消融实验来验证CAB和OCAB的影响,定量和定性分析结果如下表2和图6所示。


可以看到文中所提的两个模块在定量指标上均带来了不小的提升,在LAM和视觉效果上相对于Baseline也具有明显改善。


图6. 消融实验的定性比较


3)主实验结果


在基准数据集上进行定量对比实验的结果如下表6所示。


从定量指标上看,没有使用ImageNet预训练策略的HAT的性能已经明显超越SwinIR,甚至在很多情况下超越了经过ImageNet预训练的EDT。


使用了ImageNet预训练的HAT则更是大幅超越了SwinIR与EDT的性能,在2倍超分的Urban100数据集上,超越SwinIR 1dB。


更大容量的模型HAT-L带来了更大的性能提升,最高在2倍超分的Urban100数据集上超越SwinIR达1.28dB,超越EDT达0.85dB。



视觉效果对比如下图7所示。可以看出HAT能够恢复更多更清晰的细节,由于对于重复纹理较多的情况,HAT具有显著优势。在文字的恢复上,HAT相比其他方法也能够恢复出更清晰的文字边缘。


图7. 视觉效果对比


本文还提供了HAT与SwinIR的LAM对比,如下图8所示。可以看出HAT能够明显使用更多的像素进行超分辨率重建,并因此取得了更好的重建效果。


图8. HAT与SwinIR的LAM结果对比


4)预训练策略对比


本文对于不同的预训练策略进行了对比,如下表7所示。相对于EDT [3]提出使用相关任务进行预训练的策略,本文提出的使用相同任务进行预训练的策略无论是在预训练阶段还是微调后的结果,性能都要更优。



总结


1)在结构上,本文设计的HAT结合了通道注意力与自注意力,在以往Transformer结构的基础上进一步提升了模型利用输入信息的范围。同时设计了一个重叠交叉注意力模块,对Swin结构利用跨窗口信息的能力进行了有效增强。


2)在预训练策略上,本文提出的在相同任务上做预训练的方法,使得模型的性能进一步增强。


3)HAT大幅超越了当前超分方法的性能,这表明该任务或许远没有达到上限,可能依然还有很大的探索空间。


参考资料:

[1] Chen, H., Wang, Y., Guo, T., Xu, C., Deng, Y., Liu, Z., Ma, S., Xu, C., Xu, C., Gao, W.: Pre-trained image processing transformer. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 12299–12310 (2021)

[2] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L., Timofte, R.: Swinir: Image restoration using swin transformer. In: Proceedings of the IEEE/CVF International Conference on Computer Vision Workshops, pp. 1833-1844 (2021)

[3] Li, W., Lu, X., Lu, J., Zhang, X., Jia, J.: On efficient transformer and image pre-training for low-level vision. arXiv preprint, arXiv:2112.10175 (2021)

[4] Gu, J., Dong, C.: Interpreting super-resolution networks with local attribution maps. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. pp. 9199–9208 (2021)


相关文章
掌握销售之道:深入学习ERP系统的销售与客户关系管理模块
掌握销售之道:深入学习ERP系统的销售与客户关系管理模块
953 8
一劳永逸的方法解决:LNK1168无法打开 xxx.exe 进行写入 报错问题
一劳永逸的方法解决:LNK1168无法打开 xxx.exe 进行写入 报错问题
2200 2
|
5G 芯片
带你读《无人机网络与通信》之二:空对地与空对空数据链路通信
本书针对无人机系统两个关键问题—通信组网和管控体系做了比较全面和深入的描述和探讨,特别是以大量笔墨分析了现有无线通信解决方案,对比了不同通信协议,得出了很有价值的研究结论。无人机的跨越式发展将涉及公共安全管理的问题,构建管控体系是当务之急,分级管理以及制定相应的适航标准是一件大事情,本书对此也进行了系统的、建设性的讨论。未来,高档无人机和无人机集群将对环境具有更强的感知能力和自适应能力,还有对任务的自规划和学习、调整能力,本书讨论的内容将为它们的发明、部署和监督提供宝贵的信息。
|
10月前
|
机器学习/深度学习 资源调度 计算机视觉
YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力 动态关注目标区域
YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力 动态关注目标区域
600 6
YOLOv11改进策略【Conv和Transformer】| CVPR-2022 Deformable Attention Transformer 可变形自注意力 动态关注目标区域
|
机器学习/深度学习 Java 开发工具
【能力展现】魔改ZXING源码实现商业级DM码检测能力
【能力展现】魔改ZXING源码实现商业级DM码检测能力
930 1
|
SQL 安全 PHP
PHP开发中防止SQL注入的方法,包括使用参数化查询、对用户输入进行过滤和验证、使用安全的框架和库等,旨在帮助开发者有效应对SQL注入这一常见安全威胁,保障应用安全
本文深入探讨了PHP开发中防止SQL注入的方法,包括使用参数化查询、对用户输入进行过滤和验证、使用安全的框架和库等,旨在帮助开发者有效应对SQL注入这一常见安全威胁,保障应用安全。
680 4
|
缓存 网络协议 网络性能优化
C语言 网络编程(二)TCP 协议
TCP(传输控制协议)是一种面向连接、可靠的传输层协议,通过校验和、序列号、确认应答等机制确保数据完整性和可靠性。通信双方需先建立连接,再进行通信,采用三次握手建立连接,四次挥手断开连接。TCP支持任意字节长度的数据传输,具备超时重传、流量控制及拥塞控制机制。三次握手用于同步序列号和确认双方通信能力,四次挥手则确保双方均能完成连接关闭操作,保证数据传输的可靠性。
|
机器学习/深度学习 编解码 计算机视觉
YOLOv8改进 | 2023注意力篇 | HAttention(HAT)超分辨率重建助力小目标检测 (全网首发)
YOLOv8改进 | 2023注意力篇 | HAttention(HAT)超分辨率重建助力小目标检测 (全网首发)
592 0
|
机器学习/深度学习 编解码 计算机视觉
【YOLOv8改进】D-LKA Attention:可变形大核注意力 (论文笔记+引入代码)
YOLO目标检测专栏探讨了Transformer在医学图像分割的进展,但计算需求限制了模型的深度和分辨率。为此,提出了可变形大核注意力(D-LKA Attention),它使用大卷积核捕捉上下文信息,通过可变形卷积适应数据模式变化。D-LKA Net结合2D和3D版本的D-LKA Attention,提升了医学分割性能。YOLOv8引入了可变形卷积层以增强目标检测的准确性。相关代码和任务配置可在作者博客找到。
|
机器学习/深度学习 编解码 自然语言处理
CVPR 2022 | Restormer:高分辨率图像恢复的高效Transformer
CVPR 2022 | Restormer:高分辨率图像恢复的高效Transformer
1012 1