自监督这么热,快抓紧时间上车:基于 Pretext Task 的自监督学习

简介: 自监督学习有一个非常强的动机:目前,大部分神经网络的训练仍然使用的是有监督范式,需要耗费大量的标注数据,标注这些数据是非常耗时费力的。而自监督的提出就是为了打破对人工标注的依赖,即使在没有标注数据的情况下,也可以高效地训练网络。众所周知,神经网络的训练需要任务来进行驱动,所以自监督学习的核心就是来合理构造有利于模型学习的任务。

前言



2019 年 MoCo 的横空出世,掀起了视觉自监督学习的热潮。后面 SimCLR, MoCo, BYOL, SwAV 等主流自监督学习算法相继被提出,自监督学习领域呈现出百花齐放、百家争鸣空前繁荣的景象。2021 年末 MAE 更是将自监督学习带到了一个前所未有的新高度。但是繁荣的背后,自监督学习经历了漫长的迭代和发展过程。


自监督学习有一个非常强的动机:目前,大部分神经网络的训练仍然使用的是有监督范式,需要耗费大量的标注数据,标注这些数据是非常耗时费力的。而自监督的提出就是为了打破对人工标注的依赖,即使在没有标注数据的情况下,也可以高效地训练网络。众所周知,神经网络的训练需要任务来进行驱动,所以自监督学习的核心就是来合理构造有利于模型学习的任务。


目前来说,构造这些任务的方法大致可以划分为三个方面:


1) 基于 pretext task ( 代理任务 )

2) 基于 contrastive learning ( 对比学习 )

3) 基于 mask image modeling  ( 掩码图像模型 )


这篇文章主要介绍 基于 pretext task 的自监督学习算法是如何构造任务驱动模型来进行高效学习的。以下我们将分析 4 篇主流文章,带大家一起感受基于 pretext task 的自监督学习算法。


Relative Location



论文链接:

https://arxiv.org/abs/1505.05192


Context 信息蕴含着大量的监督信息, 目前,自然语言处理大量使用这样的监督信息,来完成大规模的自监督训练。无独有偶,视觉领域也可以利用图片的 context 信息来完成自监督训练。作者从一张图片中随机抽取两个 patches,然后让模型来预测一个 patch 相对于另外一个 patch 的位置。作者认为: 模型只有很好地理解到图片中的各种场景,物体,以及各部分之间的相互关系,模型才能够很好地完成这个相对位置预测任务。

640.png

640.png

具体做法如上图(上)所示,从红色框中随机选取一个,然后让模型预测其相对于蓝色方框的位置。具体网络结构如上图(下)所示:最开始让两个网络分别提取两个 patches 的特征,然后再在最后面进行融合。


预测两个 patches 的相对位置简单合理,但是如何去规避无效解是模型设计中需要考虑的重点。经过作者长期的探索,以下两种情况容易导致无效解:


1) low-level 特征。例如边界样式和纹理的连续性可以使得模型直接预测两个 patches 的相对位置,而不用去理解其内容。


2) 色差的影响。由于不同颜色的光的波长不一样,凸透镜会将不同颜色的光投影到不同的位置上。通常情况下,绿色的光相较于蓝色和红色的光更靠近中心一点。那么,模型可以学习到不同 patch 相较于凸透镜中心的位置关系。利用这样的信息,模型也可以学习到两个 patches 之间的相对位置关系,而不用去理解其内容。


针对上面两种情况,作者分别提出了解决方案:


1) 采样 patch 的时候中间留有 gap(不进行连续采样),同时对这个 gap 具体数值选取也进一步引入了随机波动。


2) 针对色差问题,作者提出随机抛弃掉每个 patch RGB 三个通道中的两个通道,并用高斯噪声对丢弃掉的两个通道进行填充。


通过以上设计,模型取得了不错的效果。

Colorization



论文链接:

https://arxiv.org/abs/1603.08511


作者主要通过构造一个图片着色任务,来让模型学习图片的语义信息。因为作者认为: 只有很好地理解到了各种场景的独立的语义信息,以及他们之间的联系,模型才能够很好完成这项任务。

640.png

具体做法如上图所示,作者将图片转换到 CIE Lab 颜色空间,然后将 L 通道喂入模型,然后让模型去预测 a, b 通道的数值。但是,如何设计损失函数非常有考究。


如果直接通过回归的方式来完成 a, b 通道的预测,那么最终的着色效果是不太理想的,最终的图片偏灰度图。


因为图片中每个物体可能有多个可能的着色效果,所以作者将其转换成一个分类问题,并进一步提出 class  rebalancing  来平衡不同像素点对模型训练的影响。


Context Encoders



论文链接:

https://arxiv.org/abs/1604.07379


与上面讲到的 Colorization 类似,Context Encoders 也是通过设计重建原图来使模型学习到图片的语义信息。但是与 Colorization 不同,Context Encoders 是从空间维度对图片进行重建,而 Colorization 是从图片的通道维度进行重建。作者认为:模型只有很好地理解到整张图片的语义信息,才能够很好地完成这个重建任务。

640.png

640.png

具体做法,如上图所示: 作者 mask 掉一部分图片信息,然后将 mask 过的图片喂入网络,然后让 mask 掉的部分对预测的部分进行监督,并使用 L2 loss 驱动模型学习。到此为止,通过对图片进行重建来进行自监督学习的整个流水线已经搭建完成。但是作者发现,仅仅使用 L2 loss 容易使得模型的重建结果非常模糊,而没有很好地重建出图片的高频信号。这是因为,回归平均值对 L2 loss 来说更易于优化。


为了解决上述问题,作者进而提出添加了一个对抗损失函数,这个函数的引入使得重建的图片更加 sharp,进而提高了模型对图片语义的理解能力。

640.png

最后,作者探索了如何来 mask 图片,最终发现采用 Central region 的模型的泛化能力不是特别好,而采用 Random block 和 Random region 的模型取得不错且相似的结果。


Rotation Prediction



论文链接:

https://arxiv.org/abs/1803.07728


作者希望,通过让模型去识别图片的旋转角度,让模型具有理解图片语义信息的能力。为了完成这个任务,作者认为:模型只有很好地识别并提取图片中的主要物体,并理解其和图片中其他景物的语义信息,才能够完成这个旋转角度识别任务。其具体操作如下:

640.png


首先定义多种旋转操作,将旋转后的图片喂入网络,然后对模型进行分类任务训练,让模型输出当前图片被施加了何种旋转操作。通过这样一个简单的任务,作者发现,模型具备了提取图片中主要物体,并理解图片语义信息的能力。除此之外,作者继续分析了该方法成功的原因:


1)相较于其他操作,旋转操作没有遗留任何明显的 low-level 线索让模型轻易完成这个旋转识别任务。所以,模型必须得去理解图片的语义信息。


2)识别旋转角度是一个定义非常完善的任务。因为,大多数情况下图片中的物体总是呈现直立的状态,所以理想情况下,模型可以清楚地识别图片被旋转了多大的角度。除非,物体是类似于圆形的形状。


通过上面四个例子,我们可以发现,基于 pretext task 的自监督学习算法都具有以下两个特点:


1)一个定义良好的任务,例如识别旋转角度和相对位置。


2)合理的限制条件,例如引入何种条件才能够避免模型得到无效解。



这就是本期关于基于 pretext task 的自监督学习算法的全部内容,我们希望通过这四个经典例子,让读者对该类型的自监督学习算法有个简单的了解。MMSelfSup 目前涵盖了大部分主流自监督学习算法,欢迎大家使用和 PR~


文章来源:【OpenMMLab

2022-02-23 18:03

目录
相关文章
|
9月前
|
算法 前端开发
赢得比赛需要的最少训练时长
赢得比赛需要的最少训练时长
64 0
|
8天前
|
机器学习/深度学习
过程奖励模型PRM成版本答案!谷歌DeepMind全自动标注逐步骤奖励PAV,准确率提升8%
研究团队提出了一种新的过程奖励模型(PRM),通过衡量每一步骤的进展来改进大型语言模型(LLM)的推理能力。与仅在最后提供反馈的结果奖励模型(ORM)不同,PRM能在多步骤推理中逐步提供反馈,从而改善信用分配。研究引入了过程优势验证者(PAV),用于预测证明策略下的进展,显著提升了测试时间搜索和在线强化学习(RL)的效率与准确性。实验表明,PAV相比ORM提高了8%以上的准确性和5至6倍的样本效率。该方法在Gemma2模型上得到了验证,并展示了在解决复杂问题上的潜力。尽管成果显著,但仍需进一步研究以优化证明策略的设计和减少拟合误差。
128 97
|
4月前
|
机器学习/深度学习 调度 计算机视觉
深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究
本文探讨了多种学习率调度策略在神经网络训练中的应用,强调了选择合适学习率的重要性。文章介绍了阶梯式衰减、余弦退火、循环学习率等策略,并分析了它们在不同实验设置下的表现。研究表明,循环学习率和SGDR等策略在提高模型性能和加快训练速度方面表现出色,而REX调度则在不同预算条件下表现稳定。这些策略为深度学习实践者提供了实用的指导。
98 2
深度学习中的学习率调度:循环学习率、SGDR、1cycle 等方法介绍及实践策略研究
|
4月前
|
机器学习/深度学习 人工智能 监控
足球预测:进球率预测法的接力人——AI预测
足球预测已有近200年历史,但依赖“自媒体人”推送的方式存在诸多问题。本文介绍了一种基于1990年大卫·杰克逊和K.R.莫舍斯基研究的进球率预测法,通过比较球队平均进球率来预测比赛结果。结合AI技术,该方法可批量处理数据并优化预测模型,提高预测准确性。文中还展示了AI预测的实际应用案例及代码实现,并强调了AI在赛事监控中的重要性。尽管AI预测效果显著,但仍需理性对待。
|
4月前
|
机器学习/深度学习 数据挖掘 大数据
心跳信号分类预测Task1 赛题理解
心跳信号分类预测Task1 赛题理解
70 0
|
6月前
Sora视频重建与创新路线问题之模型视频的短期时间上下文以预测未来帧,如何处理
Sora视频重建与创新路线问题之模型视频的短期时间上下文以预测未来帧,如何处理
|
9月前
|
机器学习/深度学习 自然语言处理
专治大模型说胡话,精确率100%!华科等提出首个故障token检测/分类方法
【4月更文挑战第29天】华中科技大学等机构研究者提出首个针对大语言模型故障token的检测与分类方法,精确率高达100%,显著提升文本质量。该方法利用上下文信息及注意力机制的神经网络,有效识别语法、语义和事实错误,但在逻辑和风格错误检测上仍有待改进。虽然计算成本高且无法实时干预生成过程,但为优化LLM提供了新途径。[论文链接](https://arxiv.org/abs/2404.09894)
75 1
|
9月前
|
机器学习/深度学习 算法 数据可视化
机器学习-生存分析:如何基于随机生存森林训练乳腺癌风险评估模型?
机器学习-生存分析:如何基于随机生存森林训练乳腺癌风险评估模型?
147 1
|
机器学习/深度学习 机器人 计算机视觉
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类
耗时两年,谷歌用强化学习打造23个机器人帮助垃圾分类
|
机器学习/深度学习 存储 算法
NeurIPS 2022 | 如何正确定义测试阶段训练?顺序推理和域适应聚类方法
NeurIPS 2022 | 如何正确定义测试阶段训练?顺序推理和域适应聚类方法
137 0