目标检测:SppNet核心思想

简介: 目标检测:SppNet核心思想

SppNet

在这里插入图片描述

面临的问题

  1. 速度:由于RCNN需要对一张图片产生2000个候选区域分别采用cnn提取特征,大大增加了速度。
  2. 性能:由于全连接网络的限制,Selective Search 产生的候选框需要固定尺寸(227 * 227),会给图像造成不规则变形,这也会造成性能的损失。

空间金字塔池化

在这里插入图片描述

为了解决性能问题,作者的想法是让图片经过卷积层后,在卷积层与全连接层的中间加上一层可以特殊的网络结构,无论卷积层输出多大的feature map,都可以输出固定的向量,这样就可以解决全连接层的限制,也就结解决了需要对候选框resize造成图像失真的问题。

上面的特殊的网络层就叫做空间金字塔池化,是指把卷积层输出的featuremap的HW分别平均分成 16份、4份、1份,然后每一份做maxpooling,假设channel是3,那么无论输入多大,输出都是(16+4+1)*3。

特征图映射

在这里插入图片描述

为了解决速度问题,由于rcnn需要对每一张图片产生的所有候选框分别提取特征,但这实质其实是对同一张图片的不同部分做提取,如果我们可以直接对cnn提取整张图像的feature map,然后根据候选框的在原图中的相对位置找到对应的整张feature map中候选框的feature map的相对位置,这样每张图像就只需要提取一次cnn的操作,然后根据映射找到候选框feature对于整张图像的feature 相对位置,也就找到了候选框的feature。

映射细节

存在的问题

和RCNN一样,SPP也需要训练CNN提取特征,然后训练SVM分类这些特征。需要巨大的存储空间,并且分开训练也很复杂。而且selective search的方法提取特征是在CPU上进行的,相对于GPU来说还是比较慢的。针对这些问题的改进,我们将在Fast RCNN以及Faster RCNN中介绍。

目录
相关文章
|
5月前
|
机器学习/深度学习 监控 算法
目标检测算法技术
8月更文挑战第11天
|
5月前
|
机器学习/深度学习 监控 算法
目标检测算法
8月更文挑战第8天
|
6月前
|
机器学习/深度学习
ICML 2024:揭示非线形Transformer在上下文学习中学习和泛化的机制
【7月更文挑战第10天】Rensselaer Polytechnic Institute和IBM的研究者探讨了非线性Transformer在上下文学习的理论基础。他们展示了Transformer如何通过注意力层聚焦相关上下文,并利用MLP层进行预测,揭示了其在不需微调情况下的泛化能力。尽管研究局限于二进制分类和单层模型,它为理解复杂模型在不同任务和领域的潜在适应性提供了新视角。[论文链接:](https://arxiv.org/pdf/2402.15607)**
56 1
|
机器学习/深度学习 监控 算法
目标检测算法的优缺点及适用场景
目标检测算法的优缺点及适用场景
494 0
|
8月前
|
机器学习/深度学习 自然语言处理 数据可视化
CVPR 2021 | LocalViT:将局部性引入视觉Transformer
CVPR 2021 | LocalViT:将局部性引入视觉Transformer
158 1
|
8月前
|
机器学习/深度学习 人工智能 算法
详细介绍卷积神经网络(CNN)的原理 !!
详细介绍卷积神经网络(CNN)的原理 !!
222 0
|
编解码 算法 数据挖掘
FCOS—分割思想做目标检测
FCOS—分割思想做目标检测
256 0
|
机器学习/深度学习 自动驾驶 计算机视觉
目标检测提升技巧 | 结构化蒸馏一行代码让目标检测轻松无痛涨点(一)
目标检测提升技巧 | 结构化蒸馏一行代码让目标检测轻松无痛涨点(一)
170 0
|
机器学习/深度学习 自动驾驶 计算机视觉
目标检测提升技巧 | 结构化蒸馏一行代码让目标检测轻松无痛涨点
目标检测提升技巧 | 结构化蒸馏一行代码让目标检测轻松无痛涨点
211 0
|
计算机视觉
目标检测提升技巧 | 结构化蒸馏一行代码让目标检测轻松无痛涨点(二)
目标检测提升技巧 | 结构化蒸馏一行代码让目标检测轻松无痛涨点(二)
162 0