CVPR 2019|CFNet:语义分割中的共现特性

简介: 作者发现图像中存在🚀共现特征(即输入图像中与目标特征共同出现的特征)。比如在城市景观图像中,很难分辨的出海洋、湖泊、江河,但是当有帆船在图片上的时候,出现海洋的可能性很大。

🏆本篇论文提出了Coocurrent Feature Model,该模型可以利用整体场景中共现特征,辅助预测目标特征。该模型在Pascal Context 达到54.0%mIOU,在Pascal VOC 2012和ADE20K分别达到87.2%以及44.89%mIOU。


442602084330939e84261f642cd9e7c2.png


会议/期刊:CVPR2019


论文题目:《Co-occurrent Features in Semantic Segmentation》

论文链接:Co-Occurrent Features in Semantic Segmentation (thecvf.com)

开源代码:https://github.com/huy105/CFNet

解决的问题


共现特征


作者发现图像中存在🚀共现特征(即输入图像中与目标特征共同出现的特征)。比如在城市景观图像中,很难分辨的出海洋、湖泊、江河,但是当有帆船在图片上的时候,出现海洋的可能性很大。


f8f59a408cc9234bd45245523bea9fa2.png


同时,这种共现特征不仅出现在2个不同物体间,也出现在同一物体不同部位。比如要识别出长条椅和扶手椅,如果出现了扶手这个特征,那么答案是扶手椅的可能性更大,如下图:


6c6951f875d284d96836a838b817dbfb.png


现有的问题


先前的FCN距离较窄,而最近提出的ASPP或者是DASPP结构,只适用于距离较近的共现特征,不具有空间不变性


思路和主要过程


特征共现


作者把特征共现看作是一个概率问题。作者一开始使用了softmax去计算概率


image.png


经过CNN处理后的特征图X={x 1 , x 2 , . . . , x N  };


s ( x c , x t ) 表示目标特征 x t 和共现特征x c 的相似性;p ( x c ∣ x t ) 表示二者出现的概率


但作者发现,在室内场景中椅子与人共同出现,但在室外场景中却期待车辆和建筑物。简单的softmax不能考虑复杂的先验环境


所以,需要在softmax的基础上,加上图像所处的环境信息,作者在此提出了一个🔥混合softmax(Mos)


image.png


下面进行一个简单的推导:


s k ( x c , x t )表示在k这个环境的先验条件下,目标特征和共现特征的相似度。


π k 表示网络经过训练,可以判定图片所处的环境是k环境的概率。w k 是语义信息,v x 是学习到的一个矢量。

image.png


Mos允许不同语义环境下的共现特征可以有不同的先验条件。简而言之,就是考虑了一层环境因素


ACF模块


作者利用这个共现特征,设计了共现特征模块(ACF)。


image.png

其中,p ( x c ∣ x t ) 是出现共现特征则判定为目标特征的概率,ψ c 是图片上的第c个特征


从1 − N 1-N1−N将所有特征的概率都累加起来,最后得到z t ,z t 越大,则出现目标特征的概率越大


CFNet


作者设计了一个CFNet网络,如下图所示


c54b867827c3dc81eb99f981ee7be4a7.png


其中,有几个小trick:


  • 为了减少计算量,作者在Input Features这部分把H ∗ W ∗ C H*W*CH∗W∗C的图像拉伸到了( H ∗ W ) ∗ C (H*W)*C(H∗W)∗C的二维矩阵


  • 最上面的Pool是为了获取全局特征而下面的两条支路是为了获取共现特征


实验结果


提出的CFNet(ResNet101)网络在 Pascal Context上实现了当时(2019年)最先进的结果54.0%mIoU,在Pascal VOC 2012上实现了87.2%mIoU,在ADE20K上实现了44.89%mIoU


39dd20178aa1878b3acc89979ae423f9.png

相关文章
|
7月前
|
机器学习/深度学习 算法 机器人
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
【论文速递】TMM2023 - FECANet:用特征增强的上下文感知网络增强小样本语义分割
|
2月前
|
人工智能 数据可视化 API
语义分割笔记(一):基于PaddleSeg使用Transfomer模型对航空遥感图像分割
这篇博客介绍了如何使用PaddleSeg和Transformer模型SegFormer B3对航空遥感图像进行语义分割,包括项目背景、数据集处理、训练步骤和代码实现。
124 1
语义分割笔记(一):基于PaddleSeg使用Transfomer模型对航空遥感图像分割
|
7月前
|
计算机视觉
论文介绍:像素级分类并非语义分割的唯一选择
【5月更文挑战第24天】论文《像素级分类并非语义分割的唯一选择》提出了MaskFormer模型,该模型通过掩模分类简化语义与实例级分割任务,无需修改模型结构、损失函数或训练过程。在ADE20K和COCO数据集上取得优异性能,显示处理大量类别时的优势。MaskFormer结合像素级、Transformer和分割模块,提高效率和泛化能力。掩模分类方法对比边界框匹配更具效率,且MaskFormer的掩模头设计降低计算成本。该方法为语义分割提供新思路,但实际应用与小物体处理仍有待检验。[链接](https://arxiv.org/abs/2107.06278)
58 3
|
7月前
|
机器学习/深度学习 编解码 自然语言处理
一文综述 | 万字文总结,近几年都有哪些语义分割模型用了Transformer方法呢?
一文综述 | 万字文总结,近几年都有哪些语义分割模型用了Transformer方法呢?
495 0
|
7月前
|
编解码 算法 测试技术
【论文精读】ICLR2022 - 语言驱动的语义分割
【论文精读】ICLR2022 - 语言驱动的语义分割
|
7月前
|
算法 测试技术 计算机视觉
【论文速递】ICLR2022 - 语言驱动的语义分割
【论文速递】ICLR2022 - 语言驱动的语义分割
73 0
|
7月前
|
机器学习/深度学习 计算机视觉
【论文速递】PR2023 - 基于自正则原型网络的小样本语义分割
【论文速递】PR2023 - 基于自正则原型网络的小样本语义分割
|
机器学习/深度学习 编解码 人工智能
【计算机视觉】MaskFormer:将语义分割和实例分割作为同一任务进行训练
目标检测和实例分割是计算机视觉的基本任务,在从自动驾驶到医学成像的无数应用中发挥着关键作用。目标检测的传统方法中通常利用边界框技术进行对象定位,然后利用逐像素分类为这些本地化实例分配类。但是当处理同一类的重叠对象时,或者在每个图像的对象数量不同的情况下,这些方法通常会出现问题。
【计算机视觉】MaskFormer:将语义分割和实例分割作为同一任务进行训练
|
机器学习/深度学习 编解码 自然语言处理
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
DAFormer | 使用Transformer进行语义分割无监督域自适应的开篇之作(一)
418 0
|
机器学习/深度学习 算法 数据挖掘
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别
NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别