YOLOv11改进策略【注意力机制篇】| Large Separable Kernel Attention (LSKA) 大核可分离卷积注意力二次创新C2PSA、C3k2

2025-02-07 11

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： YOLOv11改进策略【注意力机制篇】| Large Separable Kernel Attention (LSKA) 大核可分离卷积注意力二次创新C2PSA、C3k2

一、本文介绍

本文记录的是利用LSKA 大核可分离卷积注意力模块优化YOLOv11的目标检测网络模型。LSKA结合了大卷积核的广阔感受野和可分离卷积的高效性，不仅降低计算复杂度和内存占用，而且提高了模型对不同卷积核大小的适应性。本文将其应用到v11中，利用LSKA提高模型对不同尺度目标的检测能力。

专栏目录：YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址：YOLOv11改进专栏——以发表论文的角度，快速准确的找到有效涨点的创新点！

二、LSKA介绍

2.1 设计出发点

在视觉注意力网络（VAN）中，大核注意力（LKA）模块虽在视觉任务中表现出色，但深度卷积层随卷积核增大，计算和内存消耗呈二次增长。为解决此问题，使VAN的注意力模块能使用极大卷积核，提出了LSKA模块。

2.2 原理

LSKA将深度卷积层的2D卷积核分解为级联的水平和垂直1D卷积核。通过这种分解方式，能在注意力模块中直接使用大核的深度卷积层，无需额外模块，且相比标准LKA设计，能降低计算复杂度和内存占用。

2.3 结构

2.3.1 基本LKA模块（不使用扩张深度卷积）

输入特征图$F \in \mathbb{R}^{C ×H ×W}$，设计LKA的简单方式是在2D深度卷积中使用大卷积核，计算公式：$$Z^{C}=\sum_{H, W} W_{k × k}^{C} * F^{C}$$$$A^{C}=W_{1 × 1} * Z^{C}$$$$F^{C}=A^{C} \otimes F^{C}$$这里$Z^{C}$是深度卷积输出，$A^{C}$是注意力图，$\otimes$是哈达玛积。此结构中深度卷积计算成本随核增大呈二次增长。
2.3.2 原始LKA模块（VAN 中）
为缓解上述问题，原始LKA模块将大核深度卷积分解为小核深度卷积和扩张的大核深度卷积，计算公式：$$\overline{Z}^{C}=\sum_{H, W} W_{(2 d-1) \times(2 d-1)}^{C} * F^{C}$$$$Z^{C}=\sum_{H, W} W_{\left[\frac{k}{d}\right] \times\left[\frac{k}{d}\right]}^{C} * \overline{Z}^{C}$$$$A^{C}=W_{1 × 1} * Z^{C}$$$$\overline{F}^{C}=A^{C} \otimes F^{C}$$
2.3.3 LSKA模块
如图d所示，将LKA的前两层分解为四层，每层LKA由两个1D卷积层组成。输出计算如公式：$$\overline{Z}^{C}=\sum_{H, W} W_{(2 d-1) × 1}^{C} *\left(\sum_{H, W} W_{1 \times(2 d-1)}^{C} * F^{C}\right)$$$$Z^{C}=\sum_{H, W} W_{\left[\frac{k}{d}\right] × 1}^{C} *\left(\sum_{H, W} W_{1 \times\left[\frac{k}{d}\right]}^{C} * \overline{Z}^{C}\right)$$$$A^{C}=W_{1 × 1} * Z^{C}$$$$\overline{F}^{C}=A^{C} \otimes F^{C}$$

在这里插入图片描述

2.4 优势

计算复杂度和内存占用方面
- 从图可知，相比LKA - trivial和LKA，LSKA - trivial和LSKA显著降低了VAN的计算复杂度。通过分析FLOPs和参数计算公式，LSKA在深度卷积层和扩张深度卷积层都能节省参数，计算更有效。

性能方面
- 长程依赖捕捉：通过有效感受野（ERF）生成方法验证，如图4所示，从核大小7到65，LSKA方法能有效捕捉图像长程依赖。
- 空间和通道适应性：继承LKA设计，包含空间和通道注意力特性，且采用级联水平和垂直内核进一步降低内存和计算复杂度。
- 对大核的可扩展性：在VAN中，LKA - trivial随核增大计算成本二次增长，LKA虽降低但核超$23×23$时参数增长。而LSKA - trivial和LSKA不仅降低计算成本，还能保持模型参数相对稳定，且随核增大从23到53，LSKA - Base在参数大小、GFLOPs和精度上都表现出可扩展性。

论文：https://arxiv.org/pdf/2309.01439
源码： https://github.com/StevenLauHKHK/Large-Separable-Kernel-Attention

三、实现代码及YOLOv11修改步骤

模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址：

https://blog.csdn.net/qq_42591591/article/details/143445804

YOLOv11改进策略【注意力机制篇】| Large Separable Kernel Attention (LSKA) 大核可分离卷积注意力二次创新C2PSA、C3k2

一、本文介绍

二、LSKA介绍

2.1 设计出发点

2.2 原理

2.3 结构

2.3.1 基本LKA模块（不使用扩张深度卷积）

2.3.2 原始LKA模块（VAN 中）

2.3.3 LSKA模块

2.4 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

YOLOv11改进策略【注意力机制篇】| Large Separable Kernel Attention (LSKA) 大核可分离卷积注意力 二次创新C2PSA、C3k2

一、本文介绍

二、LSKA介绍

2.1 设计出发点

2.2 原理

2.3 结构

2.3.1 基本LKA模块（不使用扩张深度卷积）

2.3.2 原始LKA模块（VAN 中）

2.3.3 LSKA模块

2.4 优势

三、实现代码及YOLOv11修改步骤

热门文章

最新文章

相关电子书

YOLOv11改进策略【注意力机制篇】| Large Separable Kernel Attention (LSKA) 大核可分离卷积注意力二次创新C2PSA、C3k2