FCN、ReSeg、U-Net、ParseNet、DeepMask…你都掌握了吗？一文总结图像分割必备经典模型（一）（2）-阿里云开发者社区

FCN、ReSeg、U-Net、ParseNet、DeepMask…你都掌握了吗？一文总结图像分割必备经典模型（一）（2）

2023-05-25 324

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： FCN、ReSeg、U-Net、ParseNet、DeepMask…你都掌握了吗？一文总结图像分割必备经典模型（一）

4、 ParseNet

本文提出了一个将全局上下文信息加入到全卷积网络的图像分割（语义分割）方法ParseNet。这个方法很简单，用的是一个层的平均特征来扩张每个位置上的特征。此外，作者还研究了几种训练过程中的特质，极大地改进了对比算法的表现（比如FCN）。此外，作者加入全局特征后，引入了一个学习归一化参数的技巧，进一步改进了算法的表现。

如下图所示，ParseNet通过全局池化提取图像的全局特征，并将其与局部特征融合起来。用全局平均池化对最后一层上下文特征进行池化，或是对任意目标层池化。在局部特征图上增加全局特征后，分割的效果大幅提升。

图5 ParseNet使用额外的全局背景来clarify局部的混乱并平滑分割

直观上理解，全局特征与局部特征的融合可以发生在两个节点：训练分类器之前（early fusion）和训练分类器之后（late fusion）。其中，前者是将两个特征融合后，作为一个整体送入分类网络训练分类器；后者则是以两个特征为输入，分别训练其对应的分类器，最后再将分类的结果整合。如果忽略结合特征后的训练过程，这两种融合的效果是差不多的。但是，在某些情况下，只有全局特征辅助下的局部特征才能够判断出正确的分类结果；此时，如果两个特征分别训练再整合，那么这种情况下的分割损失是不可逆的，也就是说，这些情况下的分类将不正确。

ParseNet利用了L2范数来归一化特征的融合过程。具体而言，给定d维输入x，算法通过计算其L2范数并在整个维度内实现归一化。此外，如果只是单纯地对所有输入层进行归一化，不仅会减慢网络的训练速度，同时也会改变该层的尺度。因此，还需要对其增加一个尺度参数gamma，将归一化的结果进行尺度缩放（缩放结果为y）。这一过程增加的参数量等于所有的通道数之和，因此在反向传播过程中是可以忽略的。具体的反向传播公式如下：

当前SOTA！平台收录ParseNet共4个模型实现。

项目	SOTA！平台项目详情页
ParseNet	前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/parsenet-2

5、 DeepMask

本文提出的DeepMask解决的是实例分割任务。DeepMask实现了三个任务：前背景分割、前景语义分割与前景实例分割。这三个任务是基于同一个网络结构进行的，只是各自有单独的分支。图6是DeepMask的网络结构概况。与大部分分割网络相同，DeepMask同样应用了VGG模型作为特征提取的主要模块，在训练中也用了ImageNet下训练得到的VGG参数初始化这一部分模型。随后，DeepMask用两条分支来分别实现分割任务和前景目标识别任务。

分割部分要实现的是对图像块内场景的类别的识别，由一个1x1卷积层后接分类层实现。这里的分类是密集的，也就是对每一个像素都有其对应的标注。网络的第二个分支要完成的任务是判断一个图像块是否满足下面两个要求：目标位于图像块的正中心附近、目标完整存在于图像块中（在某一尺度范围内）。这一部分由一个2x2的最大池化层后接两个全连接层组成。最终的输出是一个目标score，用来显示该目标是否满足上面的要求。

图6（顶部）DeepMask模型结构：网络在共享特征提取层之后被分成两个分支。上面的分支预测位于中心的物体的分割掩码，而下面的分支预测输入patch的物体得分。(底部）训练三要素示例：输入patch x、掩码m和标签y。绿色patch包含满足指定约束的对象，因此被分配到标签y=1。负样本的Mask（以红色显示）没有使用，只是为了说明问题

如图6DeepMask选择了VGG-A架构，该架构由8个3×3卷积层（之后是ReLU非线性）和5个2×2 max pooling组成。由于我们对推断分割掩码感兴趣，卷积特征图中提供的空间信息很重要。因此，删除了VGG-A模型的所有最终全连接层。此外，还舍弃了最后一个max pooling层。由于剩下的四个2×2 max pooling层共享层的输出有一个16的下采样系数，给定一个尺寸为3×h×w的输入图像，输出是一个尺寸为512×h/16×w/16的特征图。

DeepMask的训练过程对于分割任务是很有借鉴意义的。这里，网络的两个分支共同训练，损失函数如下：

除了基本的分割要求，DeepMask还做了一个限定，使得在测试推理阶段，网络会尝试对所有的图像块都进行分割，即使该图像块中不存在目标。为了实现这个目的，其采用的策略是对于不存在目标的图像块，只训练分割分支。网络与VGG-A相同，接收的RGB输入尺寸为3x224x224，生成的特征尺寸为512x14x14。由于网络结构导致输出尺寸小于原始尺寸（分割分支为1/16，目标分支为1/32），因此需要应用双线性插值将结果恢复成原始尺寸。在这个设定下，DeepMask约包含75M的参数。

当前SOTA！平台收录DeepMask共2个模型实现。

项目	SOTA！平台项目详情页
DeepMask	前往 SOTA！模型平台获取实现资源：https://sota.jiqizhixin.com/project/deepmask

FCN、ReSeg、U-Net、ParseNet、DeepMask…你都掌握了吗？一文总结图像分割必备经典模型（一）（2）

4、 ParseNet

5、 DeepMask

视觉智能

热门文章

最新文章

相关电子书