理解卷积神经网络的利器:9篇重要的深度学习论文(上)

简介: 为了更好地帮助你理解卷积神经网络,在这里,我总结了计算机视觉和卷积神经网络领域内许多新的重要进步及有关论文。

        手把手教你理解卷积神经网络(一)

        手把手教你理解卷积神经网络(二)

本文将介绍过去五年内发表的一些重要论文,并探讨其重要性。论文15涉及通用网络架构的发展论文69则是其他网络架构的论文。点击原文即可查看更详细的内容。

1.AlexNet2012

AlexNet是卷积神经网络架构的起源(尽管可能会有人认为1998Yann LeCun发表的论文是真正的开创性出版物)这篇名为基于深度卷积网络ImageNet分类的论文总共被引用6,184次,被公认为是该领域最影响力的论文之一。2012ImageNet大规模视觉识别挑战赛中,Alex Krizhevsky等人创建大而深的卷积神经网络取得了大赛冠军——将分类误差26%降至15%,这是一个惊人的改进几乎让所有的计算机视觉社区为之震撼。从那时起,卷积神经网络被广泛传播,了一个家喻户晓的名字。

    该论文 讨论了AlexNet 架构 网络 结构。与现代 架构 相比,AlexNet使用 相对简单的 网络结构: 5 卷积 最大池 drop-out层和 3 全连接层 组成。他们设计的网络 用于 1000 个类别进行分类

 c7b9ae75e17f09d1f304f410632c271a0d73bb96

主要论点

1.ImageNet数据集上训练网络ImageNet数据集包含超过1500注释图像类别超过22000个。

2.使用ReLU处理非线性函数这样可以减少训练时间,因为ReLU比传统tanh函数运行速度要快几倍)。

3.使用的数据增强技术包括图像转换,水平反射和补丁提取。

4.采用drop-out,解决训练数据的过拟合问题。

5.使用批量随机梯度下降训练架构,其中动量和权重衰减都有固定的具体值。

重要性

Krizhevsky等人2012年开发出来的神经网络卷积神经网络在计算机视觉社区的一场盛宴。这是首次ImageNet数据集上性能表现非常好的架构,利用今天仍在使用的技术,如数据增强和dropout。这篇论文阐述了卷积神经网络的优点,并创造了其他神经网络难以逾越的性能。

2.ZF Net

由于AlexNet2012闪亮登场2013ImageNet大规模视觉识别挑战赛中出现的卷积神经网络架构数量大幅度增加,该年度大赛冠军是由纽约大学的Matthew Zeiler团队创建的网络——ZF Net,该架构实现了低至11.2%的误差率ZF Net架构相当于对AlexNet架构做了微调,但作者仍然提出了一些能够提高模型性能的重要设想这篇论文之所以特别重要,另一个原因是作者花了很多精力来解释卷积神经网络的可视化,并展示了如何正确可视化滤波器和权重。

在这篇题为卷积神经网络可视化和理解的论文中,Zeiler团队首先解释重新卷积神经网络感兴趣的原因,这源自于大型训练集的可访问性以及随着GPU的使用率增大,计算能力也有提高作者还提到更好的架构会减少试验和误差次数。尽管和三年前相比,我们对卷积神经网络有了全面的理解,这仍然是很多研究人员所面临的问题!本文的主要贡献是AlexNet架构的细节做了微调并且以一种很有意思的方法对特征映射做了可视化处理。

  3bbb54d24874779378a5818beb4563c25d9f6977

主要论点

1.ZF NetAlexNet模型有非常相似的架构,同时也做了一些微调。

2.AlexNet训练了1500万张图片,而ZF Net仅仅训练了130万张图片。

3.AlexNet在第一层使用11*11滤波器,而ZF Net使用了7*7滤波器一个较小的步长做这一调整的原因是第一个卷积层中使用较小滤波器有助于大量原始像素信息保留在输入数组中11*11滤波器会过滤掉很多有用的信息,尤其是在第一个卷积层。

4.随着卷积网络的发展,使用滤波器的数量有所增加

5.ReLUs作为其激活函数,交叉熵代价函数作为误差函数,并使用批量随机梯度下降进行训练。

6.开发了一种名为去卷积网络的可视化技术,有助于测试不同的特征激活与输入数组的关系。之所以被称为去卷积,因为它将特征映射像素(与卷积层的作用正好相反)。

DeConvNet

DeConvNet模型的基本思想是,在卷积神经网络已经训练的每一层,都增加一个去卷积返回图像像素。图像输入到卷积神经网络中,并在每个级别计算其特征激活。假设现在检查第四个卷积层中某个特征激活我们存储这一个特征映射激活,但将卷积层中的所有其他激活都设为0,然后将此特征映射作为输入传递DeConvNet模型DeConvNet模型具有与原始卷积神经网络相同的滤波器。然后,输入经过一系列的反池化和最大池化相反、校正以及前面每个层的滤波器操作,然后到达输入数组

f135302b11b1b32a53772e0b05bea9a4ab242d02

这整个过程是因为 我们想要检查 到底 哪种类型的结构 激活 给定的特征映射。 我们来看看第一层和第二层的可视化 效果

我们知道,卷积层中的第一层是一个基本特征检测器,检测边缘或颜色。如上图所示,我们可以看到,在第二层有更多的循环特征被检测到下面,我们来看看第345层。

52cfe21dd9a3ba55e306a1982d2bb245582f7279 

这些层显示了更多高级特征,如狗的头部或鲜花。需要注意的是,在第一个卷积层之后,我们通常会有一个池化图像进行下采样(例如,将32*32*3数组转换为16*16*3数组)。这样做可以在第二层看到原始图像范围更广的特征

重要性

ZF Net模型不仅是2013ImageNet大规模视觉识别挑战赛的冠军,而且提供了有关卷积神经网络运行的绝佳的视觉效果,并展示了更多能够提高性能的方法。 ZF Net模型所描述的可视化方法不仅有助于解释卷积神经网络的内部运行机制,而且还提供了对网络架构进行改进的独特见解。

3. VGG Net (2014)

VGG Net2014年创建的架构但并不是ImageNet大规模视觉识别挑战赛的冠军),利用率达到7.3%。来自牛津大学的Karen SimonyanAndrew Zisserman创建了一个特别简单的19层的卷积神经网络,使用步13*3的滤波器,步22*2池化层

da5f445ad7d6d6f87dee9f7a341c76b0a220c760

主要论点

1.仅仅使用3*3滤波器,这与AlexNet第一层使用的11*11滤波器ZF Net使用的7*7滤波器大不相同。作者证明了两个3*3 卷积层的组合具有5*5有效感受野。在使用较小的滤波器的同时,也模拟了一个更大的滤波器,同时也减少了参数数量。此外,我们还可以在两个卷积层中使用ReLU层。

2.三个卷积层的组合具有7*7的有效感受野。

3.随着每层的深入,输入数组随之减小(卷积层和池化层的原因过滤器的数量随之,因此数组的深度也不断增加。

4.有趣的是,滤波器的数量在每个最大池化层之后都会增加一倍。这强化了缩小空间维度的想法,但增加了网络的深度。

5.特别适用于图像分类和本地化任务。作者使用本地化形式作为回归。

6.Caffe构建架构

7.在训练过程中使用数据增强技术是抖动( scale jittering 

8.在每个卷积层之后使用ReLU采用批梯度下降进行训练。

重要性

VGG Net模型一直都是我心目中最有影响力的论文之一,因为它强化了这一观点:为了使视觉数据可以分层表示卷积神经网络必须具有更加深入的网络

4. GoogLeNet (2015)

谷歌使用了Inception模块来代替简单网络架构这一概念,GoogLeNet模型是一个22层的卷积神经网络架构,并且是2014年度ImageNet大规模视觉识别挑战赛的冠军误差率高达6.7%。据我所知,这是第一个真正摒弃了在顺序结构中对卷积层池化进行简单堆叠的卷积神经网络架构之一。这个新架构着重考虑内存和功耗(堆叠所有这些层并添加大量的滤波器会产生计算成本和内存成本,同时也会增加过拟合的概率)。

d5fbac663943ce82e5e3da8a7bbe0677d140ce22 

Inception模块

并不是像以前的架构按顺序运行,GoogLeNet架构中存在可以并行的网络。如下图所示,这个方框被称为Inception模块。

 a4a1dea952962852d15fff826574f71b1c420bc8

让我们看看它的内部组成。

fa9fe49e43f18bd032f4f212f84672c815a5f816
 

底部的绿色框是输入,最上面的是输出。在传统的卷积网络的每一层,你必须选择是否进行池化或卷积操作(也可以选择过滤器大小)。Inception模块可以所有这些操作。这正是GoogLeNet的亮点之一。

这样会导致太多的输出,为了解决这一问题,作者3*35*5前面添加1*1 的卷积操作对其进行降维举个例子,假设输入数组100*100*60(这不一定是图像大小,只是网络任意一层的输入)。使用201*1卷积滤波器可以让将数组降100*100*20。这意味着3*35*5的卷积操作不会有大量的操作由于我们正在降低数组的维度,这一操作被称作特征池化,这和我们用普通的最大池化层来减小图片的高度和宽度比较相似

GoogLeNet模型有什么用这个网络由网络层的一个网络、一个中型卷积滤波器一个大型卷积滤波器和一个池化操作组成卷积网络能够提取输入数组的细节信息,而5*5滤波器能够覆盖输入较大范围的接受,因此也能够提取其细节信息。还可以GoogLeNet模型中进行池化操作,这有助于降低空间维度避免过拟合。最重要的是,每个卷积层之后都有ReLU函数,这有助于改善网络的非线性。基本上,网络执行这些操作的同时,仍能够保持计算上的良好性能

主要论点

1.在整个架构中使用了九个Inception模块,总共超过100层!

2.没有使用全连接层! 他们使用平均池化,大大节省了参数的数量

3.使用的参数AlexNet架构12倍。

4.利用R-CNN的概念介绍检测架构

5.Inception模块有了版本更新(版本67)。

重要性

GoogLeNet模型是第一个引入“卷积神经网络层并不需要依次叠加”这一理念架构之一作为Inception模块的一部分,富有创造性的层结构提高了整体性能和计算效率。

敬请期待后续论文介绍——理解卷积神经网络的利器:9篇重要的深度学习论文(下)!

  d5fc0a674b7b1eaa6b0c2262dde339c443c10ae7

 以上为译文。

数十款阿里云产品限时折扣中,赶紧点击领劵开始云上实践吧!

本文由北邮@爱可可-爱生活 老师推荐,阿里云云栖社区组织翻译。

相关文章
|
2月前
|
机器学习/深度学习 PyTorch TensorFlow
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic,深度学习探索者。深耕TensorFlow与PyTorch,分享框架对比、性能优化与实战经验,助力技术进阶。
|
2月前
|
机器学习/深度学习 数据采集 人工智能
深度学习实战指南:从神经网络基础到模型优化的完整攻略
🌟 蒋星熠Jaxonic,AI探索者。深耕深度学习,从神经网络到Transformer,用代码践行智能革命。分享实战经验,助你构建CV、NLP模型,共赴二进制星辰大海。
|
3月前
|
机器学习/深度学习 人工智能 算法
卷积神经网络深度解析:从基础原理到实战应用的完整指南
蒋星熠Jaxonic带你深入卷积神经网络(CNN)核心技术,从生物启发到数学原理,详解ResNet、注意力机制与模型优化,探索视觉智能的演进之路。
427 11
|
6月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PSO粒子群优化TCN-LSTM时间卷积神经网络时间序列预测算法matlab仿真
本内容展示了一种基于粒子群优化(PSO)与时间卷积神经网络(TCN)的时间序列预测方法。通过 MATLAB2022a 实现,完整程序运行无水印,核心代码附详细中文注释及操作视频。算法利用 PSO 优化 TCN 的超参数(如卷积核大小、层数等),提升非线性时间序列预测性能。TCN 结构包含因果卷积层与残差连接,结合 LSTM 构建混合模型,经多次迭代选择最优超参数,最终实现更准确可靠的预测效果,适用于金融、气象等领域。
|
3月前
|
机器学习/深度学习 传感器 数据采集
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
【故障识别】基于CNN-SVM卷积神经网络结合支持向量机的数据分类预测研究(Matlab代码实现)
266 0
|
5月前
|
机器学习/深度学习 人工智能 PyTorch
零基础入门CNN:聚AI卷积神经网络核心原理与工业级实战指南
卷积神经网络(CNN)通过局部感知和权值共享两大特性,成为计算机视觉的核心技术。本文详解CNN的卷积操作、架构设计、超参数调优及感受野计算,结合代码示例展示其在图像分类、目标检测等领域的应用价值。
315 7
|
6月前
|
机器学习/深度学习 数据采集 监控
基于CNN卷积神经网络和GEI步态能量提取的步态识别算法matlab仿真,对比不同角度下的步态识别性能
本项目基于CNN卷积神经网络与GEI步态能量提取技术,实现高效步态识别。算法使用不同角度(0°、45°、90°)的步态数据库进行训练与测试,评估模型在多角度下的识别性能。核心流程包括步态图像采集、GEI特征提取、数据预处理及CNN模型训练与评估。通过ReLU等激活函数引入非线性,提升模型表达能力。项目代码兼容Matlab2022a/2024b,提供完整中文注释与操作视频,助力研究与应用开发。
|
6月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于WOA鲸鱼优化的TCN-GRU时间卷积神经网络时间序列预测算法matlab仿真
本内容包含时间序列预测算法的相关资料,涵盖以下几个方面:1. 算法运行效果预览(无水印);2. 运行环境为Matlab 2022a/2024b;3. 提供部分核心程序,完整版含中文注释及操作视频;4. 理论概述:结合时间卷积神经网络(TCN)与鲸鱼优化算法(WOA),优化TCN超参数以提升非线性时间序列预测性能。通过因果卷积层与残差连接构建TCN模型,并用WOA调整卷积核大小、层数等参数,实现精准预测。适用于金融、气象等领域决策支持。
|
6月前
|
机器学习/深度学习 数据采集 并行计算
基于WOA鲸鱼优化的TCN时间卷积神经网络时间序列预测算法matlab仿真
本内容介绍了一种基于TCN(Temporal Convolutional Network)与WOA(Whale Optimization Algorithm)的时间序列预测算法。TCN通过扩张卷积捕捉时间序列长距离依赖关系,结合批归一化和激活函数提取特征;WOA用于优化TCN网络参数,提高预测精度。算法流程包括数据归一化、种群初始化、适应度计算及参数更新等步骤。程序基于Matlab2022a/2024b开发,完整版含详细中文注释与操作视频,运行效果无水印展示。适用于函数优化、机器学习调参及工程设计等领域复杂任务。
|
6月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PSO粒子群优化TCN-GRU时间卷积神经网络时间序列预测算法matlab仿真
本内容涵盖基于粒子群优化(PSO)与时间卷积神经网络(TCN)的时间序列预测算法。完整程序运行效果无水印,适用于Matlab2022a版本。核心代码配有详细中文注释及操作视频。理论部分阐述了传统方法(如ARIMA)在非线性预测中的局限性,以及TCN结合PSO优化超参数的优势。模型由因果卷积层和残差连接组成,通过迭代训练与评估选择最优超参数,最终实现高精度预测,广泛应用于金融、气象等领域。

热门文章

最新文章