反向传播的无监督域自适应方法

简介: 反向传播的无监督域自适应方法

论文标题:Unsupervised Domain Adaptation by Backpropagation


论文链接:https://arxiv.org/abs/1409.7495


论文来源:ICML 2015


一、概述


在有大量的标注数据时,深度模型往往能取得一个较好的性能。对于缺少标注数据的时候,也可以足够大的训练集来训练深度网络模型,不过不可避免的要面对训练数据与测试数据的分布之间的偏移(shift)。


一个重要的例子是合成或半合成训练数据,这些数据可能会大量出现,并被完全标注,但它们不可避免地具有与测试时的真实数据不同的分布。训练数据和测试数据可以看做位于不同的域(domain),我们希望在这样的训练数据上训练的模型也能够应用在测试数据上,这样的过程称为域自适应(Domain Adaptation,DA)。通常,拿来训练的数据称为源域(source domain),测试数据称为目标域(target domain)。举个具体的例子来说,下图中上面与下面都是手写体数字,只是背景和字体颜色不同,这就是域的数据分布的偏移,使用上面的数据训练的手写体数字识别模型显然不能拿来识别下面的数字,我们希望利用域自适应的方法来做到这件事情:


BZEAW{RV{2Q0_B_81IFOG8Q.png

                   example


域自适应的方法通常需要能够做到源域数据完全未标注(unsupervised domain annotation)或者只有少量标注样本(semi-supervised domain adaptation)。本文所提出的方法主要面向完全未标注的情况,不过也能够轻易地处理半监督的情况。


二、方法


  1. 框架


不同于之前在固定特征表示上进行域自适应的方法,本文提出的方法中特征学习与域自适应同步进行,目的是能够学习到在域的变化中具有区别性(discriminative)和不变性(invariant)的特征,也就是源域和目标域的特征有相同或者相似的分布。这样的目标通过联合优化底层特征以及两个在这些特征上操作的鉴别分类器来实现的,这两个分类器是:


①label predictor,训练和测试时都要用的标签预测分类器,用来预测类别标签(以手写数字为例,就是预测图片是哪个数字);


②domain classifier,训练时使用的域分类器,预测样本属于哪一个域。


以最小化分类器在训练集上的loss为目标来优化两个分类器的参数,而以最小化label predictor的损失和最大化domain classifier的loss来优化底层深度特征提取器的参数。

本文所提出的网络架构如下图所示:


}_JQ_)BDEFCX@N@O}P%X]II.png

                                            架构


模型主要包括3个部分:feature extractor、label predictor和domain classifier。这三个部分可以使用以往任何前馈结构来实现,唯一在本文中提出的特殊结构是图中的梯度反转层(Gradient Reversal Layer,GRL)。


  1. 符号表示


8QR`7RIC4QY)10N4J7F_2KT.png


  1. 模型的训练


`VYE6]21]D)9{NDLA%OGFTN.png


考虑以下函数:


A`[LJYVG%$E2[@2QVXIJT{S.png


上式的实现显然不能通过SGD直接实现,因此需要做一些妥协,因而有了梯度反转层。梯度反转层在前向传播时做恒等变换,在反向传播时将后面层的梯度乘以)LC3JZ@`HKNZO45]TEV~BIA.png并且传播到前面的层。使用目前的深度学习工具包实现这样一个梯度反转层很简单。梯度反转层被添加到feature extractor和domain classifier之间。形式化表达梯度反转层如下:

13)V[YALFPEH24WCM~VY]5W.png


  1. 超参数设置


学习率变化:


EYP`C%SE9BC52FJS4YYQIIH.png


三、实验


在不同的数据集上进行了实验,数据集的一些例子如下:


QLVGTF[E%]Y%RB)_L5J7O~Q.png

                                                   example


实验结果如下:


G]07BV1TGYGOLJZC[)7NDTP.png

                                          实验结果


这里SOURCE ONLY相当于性能下限,TRAIN ON TARGET相当于性能上限。


另外在OFFICE数据集上进行了实验,实验结果如下:


$]S0VA%{$]]DORYDX7N(1JO.png

                                       实验结果


对于学习到的特征分布,使用t-SNE做了可视化:


N3NN1E8P@00XEMJ8LGSG90S.png

                                   可视化特征


可以看到应用域自适应方法以后源域数据和目标域数据的特征分布更加接近了。

相关文章
|
4月前
|
机器学习/深度学习
神经网络中权重初始化的重要性
【8月更文挑战第23天】
155 0
|
5月前
|
机器学习/深度学习 图计算 计算机视觉
【YOLOv8改进 - 注意力机制】 CascadedGroupAttention:级联组注意力,增强视觉Transformer中多头自注意力机制的效率和有效性
YOLO目标检测专栏探讨了Transformer在视觉任务中的效能与计算成本问题,提出EfficientViT,一种兼顾速度和准确性的模型。EfficientViT通过创新的Cascaded Group Attention(CGA)模块减少冗余,提高多样性,节省计算资源。在保持高精度的同时,与MobileNetV3-Large相比,EfficientViT在速度上有显著提升。论文和代码已公开。CGA通过特征分割和级联头部增加注意力多样性和模型容量,降低了计算负担。核心代码展示了CGA模块的实现。
|
4月前
|
机器学习/深度学习 监控 算法
R-CNN系列目标算法
8月更文挑战第12天
|
6月前
|
机器学习/深度学习 算法
**反向传播算法**在多层神经网络训练中至关重要,它包括**前向传播**、**计算损失**、**反向传播误差**和**权重更新**。
【6月更文挑战第28天】**反向传播算法**在多层神经网络训练中至关重要,它包括**前向传播**、**计算损失**、**反向传播误差**和**权重更新**。数据从输入层流经隐藏层到输出层,计算预测值。接着,比较预测与真实值计算损失。然后,从输出层开始,利用链式法则反向计算误差和梯度,更新权重以减小损失。此过程迭代进行,直到损失收敛或达到训练次数,优化模型性能。反向传播实现了自动微分,使模型能适应训练数据并泛化到新数据。
72 2
|
5月前
|
机器学习/深度学习 计算机视觉
【YOLOv8改进 - Backbone主干】清华大学CloFormer AttnConv :利用共享权重和上下文感知权重增强局部感知,注意力机制与卷积的完美融合
【YOLOv8改进 - Backbone主干】清华大学CloFormer AttnConv :利用共享权重和上下文感知权重增强局部感知,注意力机制与卷积的完美融合
|
7月前
|
机器学习/深度学习 异构计算
Gradformer: 通过图结构归纳偏差提升自注意力机制的图Transformer
Gradformer,新发布的图Transformer,引入指数衰减掩码和可学习约束,强化自注意力机制,聚焦本地信息并保持全局视野。模型整合归纳偏差,增强图结构建模,且在深层架构中表现稳定。对比14种基线模型,Gradformer在图分类、回归任务中胜出,尤其在NCI1、PROTEINS、MUTAG和CLUSTER数据集上准确率提升明显。此外,它在效率和深层模型处理上也表现出色。尽管依赖MPNN模块和效率优化仍有改进空间,但Gradformer已展现出在图任务的强大潜力。
159 2
|
6月前
|
机器学习/深度学习 决策智能
**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。
【6月更文挑战第28天】**批量归一化(BN)**是2015年提出的深度学习优化技术,旨在解决**内部协变量偏移**和**梯度问题**。BN通过在每个小批量上执行**标准化**,然后应用学习到的γ和β参数,确保层间输入稳定性,加速训练,减少对超参数的敏感性,并作为隐含的正则化手段对抗过拟合。这提升了模型训练速度和性能,简化了初始化。
57 0
|
7月前
|
机器学习/深度学习 人工智能
SalUn:基于梯度权重显著性的机器反学习方法,实现图像分类和生成的精确反学习
【4月更文挑战第29天】SalUn是一种新的机器反学习方法,专注于图像分类和生成的精确反学习。通过关注权重的梯度显著性,SalUn能更准确、高效地从模型中移除特定数据影响,提高反学习精度并保持稳定性。适用于多种任务,包括图像生成,且在条件扩散模型中表现优越。但计算权重梯度的需求可能限制其在大规模模型的应用,且在数据高度相关时效果可能不理想。[链接](https://arxiv.org/abs/2310.12508)
115 1
|
7月前
|
人工智能 搜索推荐 物联网
DoRA(权重分解低秩适应):一种新颖的模型微调方法_dora模型
DoRA(权重分解低秩适应):一种新颖的模型微调方法_dora模型
378 0
|
机器学习/深度学习 编解码 索引
神经网络风格化过程的特征控制
翻译:《Controlling Perceptual Factors in Neural Style Transfer》