基于对偶学习的跨领域图片描述生成

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
简介:

恰逢 CIKM 2017召开(2017 年 11 月 6 日,新加坡),AI 论道的第一篇文章主要介绍我们的被 CIKM 2017 收录的一篇文章:Dual Learning for Cross-Domain Image Captioning,这里只介绍了论文框架,细节请参照我们的论文。我们后续将 release 代码。

图片描述生成(image captioning)任务是结合 CV 和 NLP 两个领域的综合性任务,是一个跨学科跨模态的交叉性任务。其输入是一副图片,输出为对该图片进行描述的一段文字。这项任务要求模型可以识别图片的物体以及理解物体之间的关系,并用一句自然语言来表达。

应用场景:例如当用户拍了一张照片后,利用 image caption 技术为其匹配合适的文字,方便以后检索或省去用户手动配字等。此外,它还可以帮助视觉障碍者理解图片内容。

现在,许多科研团队和企业都参与来这个任务,包括 Google, IBM, Microsoft, 腾讯等。然而,这些团队主要在 MS COCO 数据集[1]上进行研究,并未考虑 cross-domain 的问题 (i.e., 训练数据与测试数据不属于同一个领域)。

比如,下图为三个不同的数据,其中 MS COCO 与 Flickr30K 图片相似,具有比较小的差异。而 MS COCO 与 Oxford-102 数据集则存在较大差异。在 MS COCO 上训练的模型,在 Oxford-102 数据集上一般表现得非常差。

9

我们的工作主要致力于解决跨领域图片描述生成问题 (cross-domain image captioning)。我们采用了 pre-training then adaptation 的策略。首先在 Source domain (i.e. MS COCO) 数据上做 pre-training, 然后再在 target domain (e.g. Oxford-102) 数据上做 fine-tuning。我们的工作主要有以下贡献:

  1. 据我们所知,我们是第一个将 dual learning 用于图片描述生成的工作。我们同时优化两个任务:图片描述生成和图片生成。图片描述生成部分,我们采用了 encoder-decoder 学习框架,其中 encoder 是 CNN (e.g. VGG-19), 而 decoder 是 attention-based LSTM 模型。 图片生成部分,我们采用了 GAN 学习框架;
  2. 图片描述生成部分,我们应用了强化学习(RL),这样可以解决传统 maximize likelihood 所错存在的 exposure bias 和 non-differentiable task metric 问题;
  3. 我们将 MS COCO 做为 source domain, 将 Oxford102 和 Flickr30K 作为target domain。实验结果证明,我们的方法比传统方法有较大提升。


8

pre-training 的过程采用了标准的 encoder-decoder 框架,对于具体细节问题,还请大家参考原文。下面将为大家主要介绍我们的用于 domain adaptation 的 dual learning 方法。


7

我们采用强化学习强化学习(i.e., Policy gradient)方法来优化整个模型。我们运用了两类 rewards: evaluation metrics 和 reconstruction reward。前者可以帮助我们充分的优化生成的衡量指标,比如 BLEU,CIDEr 。后者可以帮助我们同时利用 image captioning 和 image synthesis 模型的关联,提高两个模型的效果。

另外,因为计算 reconstruction reward 不需要标注数据,我们的模型也可以无监督的或者半监督地进行学习(通过为 policy gradient 选择不同的 reward)。

6


reconstruction reward 的计算依赖于 dual learning 过程。我们将 image captioning 作为 primal task A,将 image synthesis 作为 dual task B。例如,当我们从 A 开始时,过程如下:首先,我们用模型 A 为每个图片 x 生成一个中间描述 y_{mid}。然后,我们用模型 B 为中间描述 y_{mid} 反向生成一个图片 x’。最后,通过评测这两个过程的生成结果,我们可以采用强化学习同时提高模型 A 和 B 的效果。

同理,当我们从 B 开始时,我们用模型 B 为每句图片描述y生成一个中间图片 x_{mid}。 然后,我们用模型 A 这个中间图片 x_{mid} 生成一句描述 y’。

这时我们可以计算模型 A 和模型 B 的 policy gradient 算法的 rewards:

5

实验结果

为了验证我们的跨领域图片描述生成模型,我们将 MS COCO 作为 source domain,将 Oxford102 和 Flickr30K 作为 target domain。

4

可发现我们的算法有较高提升。

3

我们也分别展示了生成的图片描述:

2

以及生成的图片:

1

关于我们

“AI论道”公众号主要用于介绍我们团队(中科院深圳先进院前瞻中心移动大数据实验室[2])以及 coauthors 的 AI 相关的一些工作。这里要感谢温伟煌同学,我们的知乎、微博、微信公众号才得以顺利出现在大家面前。

顺便打一个招人广告(我们正在建立一个研究团队):欢迎对科研有热情的同学报考我们的研究生,也欢迎同学(本科生、研究生)来我们组里实习,主要做一些关于机器学习(ML),自然语言处理(NLP)(包括将 NLP 用于图像,金融,安全等领域 )的工作。

具体研究领域请参见我的个人主页[3],同时,也欢迎大家推荐或者自荐来我们组里做 postdoc。有意者可以将简历发至我邮箱:min.yang1129@gmail.com。

原文发布时间为:2017-11-7
本文作者:杨敏
本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

相关文章
|
8月前
|
机器学习/深度学习 缓存 算法
【论文速递】IJCV2022 - CRCNet:基于交叉参考和区域-全局条件网络的小样本分割
【论文速递】IJCV2022 - CRCNet:基于交叉参考和区域-全局条件网络的小样本分割
|
5月前
|
机器学习/深度学习 数据处理 Python
深入理解双变量(二元)正态投影:理论基础、直观解释与应用实例
本文探讨了统计学与机器学习中的二元投影技术,它基于二元正态分布,用于预测一个变量在给定另一变量值时的期望值。文章分为三部分:首先介绍了二元正态投影的基本公式及其在回归中的应用;接着通过直观解释和模拟展示了不同相关性下变量间的关系;最后运用投影公式推导出线性回归的参数估计,并通过实例说明其在预测房屋价格等场景中的应用。附录中详细推导了二元线性投影的过程。二元投影作为一种强大工具,在数据分析中帮助简化复杂问题并揭示数据背后的规律。
70 1
深入理解双变量(二元)正态投影:理论基础、直观解释与应用实例
|
8月前
|
数据可视化
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码2
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
8月前
|
数据可视化 数据挖掘
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码1
R语言广义线性混合模型GLMMs在生态学中应用可视化2实例合集|附数据代码
|
8月前
|
数据可视化 测试技术
R语言线性混合效应模型(固定效应&随机效应)和交互可视化3案例
R语言线性混合效应模型(固定效应&随机效应)和交互可视化3案例
|
8月前
|
算法 Windows
R语言广义二次跳跃、非线性跳跃扩散过程转移函数密度的估计及其应用
R语言广义二次跳跃、非线性跳跃扩散过程转移函数密度的估计及其应用
|
8月前
|
数据可视化 数据建模
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
R语言用线性混合效应(多水平/层次/嵌套)模型分析声调高低与礼貌态度的关系
|
8月前
R语言 线性混合效应模型实战案例
R语言 线性混合效应模型实战案例
Matlab:如何利用层次分析法(升级版)计算具有多重指标的判断矩阵的一致性检验和权重
Matlab:如何利用层次分析法(升级版)计算具有多重指标的判断矩阵的一致性检验和权重
387 0
|
8月前
|
机器学习/深度学习 计算机视觉
YOLOv8改进 | 2023 | SCConv空间和通道重构卷积(精细化检测,又轻量又提点)
YOLOv8改进 | 2023 | SCConv空间和通道重构卷积(精细化检测,又轻量又提点)
254 0

热门文章

最新文章

下一篇
开通oss服务