【学习记录】《DeepLearning.ai》第十二课:目标监测(Object detection)

简介: 2021/9/12

第十二课:目标监测(Object detection)

3.1 目标定位(Object localization)

image

image

解释上图:

对于目标监测的输出y,第一个参数$P_c$​如果图片中有目标,比如行人,车或者自行车,则输出1,如果是背景则输出0.接下来的四个参数用来定位,具体定义在第一张图片中已经给出了。最后几个参数$C_1,C_2,C_3$表示分别是行人,车,自行车,如果是自行车,则输出$C_3$为1,其他为0.

其损失函数如上图所示。


3.2 特征点检测(Landmark detection)

image

特征点检测通过在最后一层添加输出变量,如图所示,图二标记了64个特征点,然后让其在最后一层输出,如上面的网络最后一层,第一个参数表示是否识别到了人脸,后面的参数表示特征的具体坐标位置,根据这样我们可以判断出人的表情变化,或者判断人的姿态,比如是行走还是在奔跑等等。


3.3 目标检测(Object detection)

基于滑动窗口的目标检测算法

image

让方框在图中从左上角按照一定步长进行遍历找到目标位置

缺点:计算量比较大,当步长太大,误差比较大。


3.4 滑动窗口的卷积实现(Convolutional implementation of sliding windows)

image

解释:滑动窗口的卷积实现就是从左上角开始,以固定步长进行遍历,这里的步长是由最大池化的维度决定的,如图步长为2,然后得到一个$2*2*400$的输出全连接层,其中蓝色框代表左上角的矩形窗口,绿色框代表右上角,以此类推。

image

如上图,如果以$14*14$进行滑动窗口卷积,可以得到最终$8*8$​的输出层,这里面的每一个方框对应相对位置的矩形框。

优点:效率高

缺点:不能准确预测矩形框的位置。


3.5 Bounding Box预测(Bounding box predictions)

Yolo算法效率比较高,因为它用了卷积,同时能够精确输出标准框,关于原理似懂非懂。

image

大概过程就是,先给训练集打标签(工作量巨大),如上图,每个框输出8个特征向量,具体含义本周第一课已经讲过了,可以确定出目标的位置。

image

上面这个图是关于四个参量的表示方法,其中$b_h,b_w$​表示反了,注意下。。。表示方法也和前面目标定位那块是一样的。

Redmon, Joseph, et al. "You Only Look Once: Unified, Real-Time Object Detection." (2015):779-788.(原来大佬的yolo论文)

3.6 交并比(Intersection over union)

判断对象检测算法运作是否良好?

image

交并比用来表示打标签的框与预测框的交集与并集之比,如果两个框重合,则交并比为1.

image

交并比来衡量两个边界框重叠的相对大小


3.7 非极大值抑制(Non-max suppression)

非极大值抑制的方法作用:确保算法对每个对象只检测一次。

image

如上图所示,对于预测的输出,假设就是针对汽车,去掉了之前的$C_1,C_2,C_3$,将$P_c$表示为概率,先去掉概率小于0.6的,然后找到最大的概率作为输出的预测,然后抛弃掉与最大概率框的交并比大于0.5的框,这就是非极大值抑制。


3.8 Anchor Boxes

Anchor Boxes:用来解决一个格子中有多个对象的问题。

对象在目标标签中的编码方式:(grid cell,anchor box),表示实际边界框与anchor box的交并比越高,则就选择较高的anchor box。

image

对于一个格子中有两个图像的问题:设定输出有16个 向量,比如本题,前8个表示行人,后8个表示汽车。

通常一个格子中很少有三个对象。


3.9 YOLO算法(将前面学习的综合起来)

image

在训练阶段,对于每个框得到固定的输出,对于有汽车的框,注意输出。

image

image

预测过程如下:

1.对于每个格子,都得到两个输出预测边界框;

2.去掉概率很低的预测;

3.对于每个类别单独运行非极大值抑制。


3.10 候选区域(选修)(Region proposals)

讲了个R-CNN,了解


OVER!

相关文章
|
9月前
|
人工智能 自然语言处理 搜索推荐
上下文学习的神奇魔法:轻松理解AI如何无师自通
你有没有想过,为什么给GPT几个例子,它就能学会新任务?这就像魔法一样!本文用轻松幽默的方式解密上下文学习的原理,通过「智能客服训练」场景,带你理解AI如何像人类一样从示例中学习,无需额外训练就能掌握新技能。
378 28
|
8月前
|
存储 人工智能 搜索推荐
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
Mem0 是专为 AI 代理设计的内存层,支持记忆、学习与进化。提供多种记忆类型,可快速集成,适用于开源与托管场景,助力 AI 代理高效交互与成长。
795 123
一种专为AI代理设计的内存层,能够在交互过程中记忆、学习和进化
|
11月前
|
机器学习/深度学习 人工智能 自然语言处理
教育领域的AI进展:智能辅导与个性化学习的技术革新与挑战
随着人工智能技术的发展,AI Agent在教育领域的应用日益广泛,特别是在智能辅导与个性化学习方面展现出巨大潜力。通过自然语言处理、机器学习和数据分析等技术,AI可模拟个性化辅导员,根据学生的学习情况提供定制化资源与实时反馈。未来,AI Agent将更注重情感分析与跨学科培养,成为教师的有力助手,推动教育公平与效率提升。然而,数据隐私、个体差异及教育资源不平衡等问题仍需克服,以实现更智能化、全面化的教育生态。
908 10
教育领域的AI进展:智能辅导与个性化学习的技术革新与挑战
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
迁移学习:让小数据也能驱动AI大模型
迁移学习:让小数据也能驱动AI大模型
466 99
|
9月前
|
数据采集 人工智能 前端开发
AI智能体如何从错误中学习:反思机制详解
探索AI智能体的反思能力:从哲学思考到技术实现,看AI如何像人类一样从错误中学习和成长。通过轻松有趣的方式,深入了解Reflexion和ReAct等前沿框架,掌握让AI更智能的核心秘密。
628 0
|
9月前
|
机器学习/深度学习 人工智能 PyTorch
GPT为定制AI应用工程师转型第一周学习计划
本计划帮助开发者快速入门AI领域,首周涵盖AI基础理论、Python编程及PyTorch实战。前两天学习机器学习、深度学习与Transformer核心概念,掌握LLM工作原理。第三至四天快速掌握Python语法与Jupyter使用,完成基础编程任务。第五至七天学习PyTorch,动手训练MNIST手写识别模型,理解Tensor操作与神经网络构建。
442 0
|
10月前
|
人工智能 自然语言处理 搜索推荐
学霸养成计划:AI如何打造你的专属“学习外挂”?
学霸养成计划:AI如何打造你的专属“学习外挂”?
350 0
|
机器学习/深度学习 数据采集 人工智能
快瞳AI鱼类识别 —— AI赋能海洋生物智能监测
鱼类AI识别技术基于深度学习算法,通过大量鱼类图像训练,实现对鱼类的快速精准识别。该技术模仿人类视觉系统,利用卷积神经网络(CNN)提取鱼体特征,从浅层的鳞片纹理到深层的整体形态逐步分析。快瞳科技提出的MF-Net模型突破了鱼类种类繁多、数据不均衡等难点,通过多阶段特征融合、动态权重调整及三维特征建模,显著提升识别性能。这项技术不仅重塑水产科研方式,还为海洋生物多样性保护提供智能化解决方案,推动AI在生态保护领域的应用迈入新阶段。
1421 6
|
传感器 人工智能 物联网
健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?
健康监测设备的技术革命:AI+物联网如何让你随时掌握健康数据?
1489 19