一、本文介绍
本文记录的是基于移动倒置瓶颈 MBConv 的 YOLOv11 的检测头轻量化改进方法研究。MBConv
采用了独特的倒置瓶颈结构,通过先升维再降维
的操作以及SE 模块注意力机制
,在高效提取特征的同时极大地降低了计算量。本文将MBConv
的设计优势融入YOLOv11
j检测头中,使其在目标检测任务中不仅能够更精准地识别各类目标,还能在计算资源有限的情况下快速响应,展现出更为卓越的实时检测能力。
专栏目录:YOLOv11改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
专栏地址:YOLOv11改进专栏——以发表论文的角度,快速准确的找到有效涨点的创新点!
二、MBConv介绍
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
2.1 结构组成
- 逐点卷积(1×1卷积)升维:首先通过一个1×1的逐点卷积对输入特征图进行通道数扩展。目的是增加特征的维度,为后续的深度可分离卷积提供更多的特征信息,以便更好地提取特征。
- 深度可分离卷积:包括深度卷积(Depthwise Convolution)和逐点卷积(Pointwise Convolution)。深度卷积是逐通道进行的卷积运算,每个卷积核负责一个通道,它可以在不增加太多计算量的情况下,提取特征的空间信息。之后的逐点卷积则是在通道维度上对深度卷积产生的特征图进行加权运算,两者结合可有效降低模型的计算量与参数量。
- SE模块(Squeeze-and-Excitation):有助于模型在通道维度上对重要的特征信息产生更多的关注。
- 逐点卷积(1×1卷积)降维:最后再通过一个1×1的逐点卷积将特征图的通道数恢复到与输入相近的维度,实现特征的融合和压缩,减少模型的参数量和计算量。
- Shortcut连接:当输入MBConv结构的特征矩阵与输出的特征矩阵shape相同时存在shortcut连接,将输入直接与经过上述卷积操作后的输出相加,实现特征的复用,有助于解决梯度消失问题,使网络更容易训练。
2.2 工作原理
- 特征提取:先利用1×1卷积升维扩展通道,让网络有更多的维度去学习特征。然后深度可分离卷积中的深度卷积负责提取空间特征,逐点卷积负责融合通道特征。
- 注意力机制:SE模块通过对通道特征进行加权,使得网络能够自动关注到更重要的特征通道,抑制不重要的通道,从而提升模型的特征表达能力。
- 特征融合与输出:最后的1×1卷积降维将特征进行融合和压缩,得到最终的输出特征图。有shortcut连接时,将输入特征与输出特征相加,使网络能够更好地学习到输入与输出之间的映射关系。
2.3 优势
- 高效的计算性能:深度可分离卷积的使用大大减少了计算量,相比传统的卷积操作,能在降低计算成本的同时保持较好的特征提取能力,适用于移动设备等计算资源有限的场景。
- 强大的特征表达能力:通过倒置瓶颈结构,先升维再降维,以及SE模块的注意力机制,能够更有效地提取和利用特征,提高模型的准确性和泛化能力。
- 轻量化模型:减少了模型的参数量,降低了模型的存储需求和过拟合的风险,使模型更加轻量化,便于部署和应用。
论文:https://arxiv.org/pdf/1905.11946
源码:https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet
三、实现代码及YOLOv11修改步骤
模块完整介绍、个人总结、实现代码、模块改进、二次创新以及各模型添加步骤参考如下地址: