轻量化模型系列--GhostNet：廉价操作生成更多特征

2022-04-24 435

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 由于内存和计算资源有限，在嵌入式设备上部署卷积神经网络 (CNN) 很困难。特征图中的冗余是那些成功的 CNN 的一个重要特征，但在神经架构设计中很少被研究

由于内存和计算资源有限，在嵌入式设备上部署卷积神经网络 (CNN) 很困难。特征图中的冗余是那些成功的 CNN 的一个重要特征，但在神经架构设计中很少被研究。

论文提出了一种新颖的 Ghost 模块，可以从廉价操作中生成更多的特征图。提出的 Ghost 模块可以作为即插即用的组件来升级现有的卷积神经网络。堆叠Ghost Module建立了轻量级的 GhostNet。

GhostNet 可以实现比 MobileNetV3 更高的识别性能（例如 75.7% 的 top-1 准确率），并且在 ImageNet ILSVRC-2012 上具有相似的计算成本。

出发点

多年来，已经提出了一系列方法来研究紧凑型深度神经网络，例如网络剪枝、低位量化、知识蒸馏等。网络剪枝修剪神经网络中不重要的权重、利用正则化来修剪过滤器以获得高效的 CNN；低位量化将权重和激活量化为 1 位数据，以实现大的压缩和加速比；知识蒸馏，将知识边缘从较大的模型转移到较小的模型。

然而，这些方法的性能通常受预训练的神经网络作为其基线的上限。

训练好的深度神经网络的特征图中的丰富甚至冗余信息通常可以保证对输入数据的全面理解。例如，上图展示了 ResNet-50 生成的输入图像的一些特征图，并且存在许多相似的特征图对，就像彼此的幽灵。特征图中的冗余可能是成功的深度神经网络的一个重要特征。我们倾向于采用它们，而不是避免冗余的特征图，但以一种具有成本低的方式。

这里补充一句：一个训好的正常大小的网络中，存在大量的冗余特征图，模型剪枝(或模型压缩)、正则化属于减少冗余特征图的方式，而这篇论文认为这些冗余信息会对于正确识别或检测具有重要的作用。

推荐阅读《我们真的需要模型压缩吗》更好理解上面这段话。

主要贡献

引入了一个新的 Ghost 模块，通过使用更少的参数来生成更多的特征。 具体来说，深度神经网络中的一个普通卷积层会被分成两部分。第一部分涉及普通卷积，但它们的总数将受到严格控制。给定第一部分的内在特征图，然后应用一系列简单的线性操作来生成更多的特征图。在不改变输出特征图的大小的情况下，与普通卷积神经网络相比，这个 Ghost 模块所需的总体参数数量和计算复杂度有所降低。

基于 Ghost 模块，建立了一个高效的神经架构，即 GhostNet。 首先替换基准神经架构中的原始卷积层以证明 Ghost 模块的有效性，然后验证 GhostNets 在几个基准视觉数据集上的优越性。

实验结果表明，所提出的 Ghost 模块能够降低通用卷积层的计算成本，同时保持相似的识别性能，并且 GhostNets 可以在各种任务上超越SOTA高效深度模型，如 MobileNetV3 移动设备上的快速推理。