从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA(2)

简介: 从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA

方法概述


模型架构


下图 1 为 R2D2 预训练框架的架构概览,它包含一个文本编码器、一个图像编码器和两个交叉编码器。其中,文本编码器和图像编码器分别将文本和图像转换为隐藏状态的序列。然后,文本和图像隐藏状态通过交叉注意力在两个交叉编码器中交互。



研究者使用 RoBERTa 作为文本编码器。给定文本序列,他们首先使用 RoBERTa-wwm-ext 的 tokenizer 进行 tokenize 处理。在这里,特殊的[CLS] token 被附加到 tokenized 文本的 head,同时[SEP] token 被附加到 tail。然后,tokenized 文本被输入到文本编码器中。


研究者使用 ViT 作为图像编码器。他们首先将输入图像缩放到标准尺寸,并将该图像分成多个 patch。然后每个 patch 进行线性映射并添加位置嵌入。此外,一个可学习的[CLS] token 与 patch 向量串联。最后,序列向量被输入到标准 Transformer 模型以获得图像隐藏状态向量。


研究者将图像和文本隐藏向量融合并输入到交叉编码器。具体来说,他们使用线性映射层来更改每个文本特征和图像特征的维度以使它们保持一致。多层 Transformer 借助交叉注意力融合了两种模态的特征信息,并产生了最终的跨模态输出。


预训练方法


为了探索图文对之间的匹配关系,研究者设计了一种预排序 + 排序的机制,即全局对比预排序(GCPR)和细粒度排序(FGR)。他们还采用掩码语言建模(MLM)有效地学习跨模态模型的表示。


首先是全局对比预排序。传统的对比学习旨在对齐多模态数据的表示(如成对图文),它最大化了正对的相似度分数并最小化了负对的分数。研究者则使用全局对比学习来完成预排序任务,他们在 k 个 GPU 上执行完整的反向传播。对于每个图像 I_i 和对应的文本 T_i,图文和文图的 softmax 归一化相似度分数可以如下定义:



全局对比预排序损失通过交叉熵损失 L_c(·)来计算,如下公式 (2) 所示:



然后是细粒度排序。如上所述,研究者使用全局对比预排序来获得图像和文本的单个表示。基于这些表示,进一步借助细粒度排序损失来执行细粒度排序任务。这是一个二元分类任务,旨在预测图文是否匹配。


研究者将 h_I_[CLS] 和 h_T_[CLS]作为两个交叉编码器的输出表示。给定一个图像表示 h_I_[CLS]和一个文本表示 h_T_[CLS],研究者将它们输入到一个全连接层 g(·)以得到各自的预测概率。令 y 表示为二元分类的 ground-truth 标签,研究者对细粒度排序损失进行如下的计算。



研究者将掩码语言建模损失应用于文图交叉编码器,以提高在 token 级别建模文本和图像之间关系的能力。15% 的文本 token 在输入中被遮盖,所有这些 token 被替换成了[MASK] token。


在研究者的模型中,掩码语言建模任务利用掩码文本和对应的图像一起进行去噪,从而增强了文本和图像之间的交互。由于细粒度排序严重依赖这种交互能力,因此研究者提出了增强训练(ET),它将掩码语言建模任务集成到了正向图文对的细粒度排序前向操作中。


双向蒸馏


大部分图文预训练数据由半自动化程序所收集,从而导致其数据带有噪声。不准确的标签可能会误导模型训练。为此,研究者提出目标导向型蒸馏(TgD),一种带软目标的基于教师 - 学生的蒸馏。为了进一步提高预训练模型的泛化性能,研究者引入了特征导向型蒸馏(FgD)。为方便起见,他们将这两种蒸馏的组合称为双向蒸馏(TwD)。


目标导向型蒸馏:为了降低从噪声标签中学习的风险,研究者建议采用动量更新编码器产生的软目标(soft target)。这里,动量更新编码器作为蒸馏的教师模型,由指数移动平均权重得到。


研究者通过系数 α 将相似度得分 s(·,·) 与 one-hot 标签 y(·,·) 相结合,以生成最终的 soft 标签。将表示为最终 soft 标签。为例,可定义为:



考虑到队列中特征的有效性随着时间步长的增加而降低,研究者还维护了一个加权队列 w 来标记相应位置特征的可靠性。具体来说,除了新传入的项之外,该研究每次迭代都将队列中的每个元素衰减 0.99 倍。因此,研究者将 替换为等式 2 中的加权交叉熵损失使用目标导向型蒸馏, 定义为:



特征导向型蒸馏:与 TgD 类似,研究者采用教师 - 学生范式进行特征导向型蒸馏。以文本编码器为例,学生模型是文本编码器,而教师模型是通过动量更新的编码器。


为了进一步提高模型性能,研究者对输入采用掩码策略。在具体实现中,将完整的输入提供给教师模型,将经过遮盖的输入提供给学生。依靠动量机制,目标是让学生的特征更接近教师的特征。形式上,教师和学生模型的预测分布分别定义如下:



研究者利用交叉熵损失进行特征导向型蒸馏,损失 L_FgD 定义为:


最后用整体预训练目标进行模型训练:



实验结果


从下表 2 中可以看出,研究者提出的模型在绝大多数任务中都超越了此前的 SOTA,即使仅使用 2.3M 样本(约为 Wukong 数据大小的 2.3%)进行训练时也是如此。对 23M 样本进行预训练时,结果更好。在模型层面,R2D2ViT-L 也在所有数据集中都优于 R2D2ViT-B,表明随着预训练模型变大,算法效果会变好。


 

研究者还在所提出的下游数据集上进行实验,这些实验结果成为所提出数据集的基线。特别地,在 Flickr30k-CNA 上进行实验时,研究者使用 Flickr30k-CNA 的训练集精调预训练模型,并在 Flickr30k-CN 的测试集上测试以进行公平比较。从表 2 可以看出,在 Flickr30k-CNA 上微调的 R2D2 优于在 Flickr30k-CN 上微调的 R2D2,因为人工翻译的 Flickr30k-CNA 的质量远高于机器翻译的 Flickr30k-CN。


与图文检索不同,有关中文的图文匹配 (ITM) 任务的数据集很少。研究者提出了针对中文 ITM 任务的图像标题匹配数据集 (ICM) 和图像查询匹配数据集(IQM),并给出了相应的结果。


研究者使用了 AUC 作为评价指标。从下表 1 中可以看出,R2D2ViT-L 比 R2D2ViT-B 取得了更好的结果。此外,R2D2ViT-L (23M) 在 ICM 和 IQM 上的表现分别比 R2D2ViT-L (2.3M) 高出约 4.97% 、5.68%。这意味着更多的中文高质量数据能够提高 R2D2 的泛化能力。


为了进一步提高性能,研究者用从 50 亿样本中提取的 2.5 亿个图文对进行预训练。从表 2 可以看出,以最综合的评估指标 R@M 来衡量,该模型在 Flickr30k-CN、COCO-CN、AIC-ICC、MUGE、Flickr30k-CNA、ICR、IQR 等数据集的所有结果中都超过了 23M 数据训练的模型,这意味着增加数据量可以增强预训练模型的能力。同时,这些结果也显著超越了有公开结果批露的 WenLan2.0 以及 WuKong 的结果,成为最新的 SOTA。下表 1 中数据则展示了在图文匹配任务 ICM、IQM 中,更大量的数据训练的预训练模型会取得更好的结果。

 

为了表明各个机制的作用,研究者在 Zero-Corpus 的子集上(230 万图文预训练数据)进行消融实验。为方便起见,在消融实验中研究者将 R2D2ViT-L 定义为 R2D2。


细粒度排序 (FGR) 的效果。首先,研究者使用全局对比预排序(GCPR)和双向蒸馏(TwD)训练模型,并定义为 PRD2。PRD2 的设置类似于 CLIP。从下表 3 的第一行和第二行可以看出,R2D2 在图文检索任务上的表现显著优于 PRD2,可以推测出该结果显著好于 CLIP,这说明了提出的全局对比预排序 + 细粒度排序框架的有效性。


增强训练 (ET) 的效果。研究者对比了去掉增强训练后的结果。从下表 3 的第三行可以看出,R2D2 (带 ET) 在图文检索任务上使 recall@1 提高了 0.95%,AUC 从 80.27% 提高到 80.51%。R2D2 的另一个优点是比 R2D2 w/o ET 使用更少的计算资源。R2D2 需要 154.0 GFLOPs 计算量,能够以每秒 1.4 次迭代的速度运行,而没有增强训练的 R2D2 则需要 168.8 GFLOPs 计算量,每秒只能运行 1.1 次迭代。上述结果证明了增强训练的有效性。


双向蒸馏的效果。研究者提出的双向蒸馏包含了目标导向型蒸馏和特征导向型蒸馏。当移除双向蒸馏(TwD)时,R@M 从 74.06% 降到 73.10%,AUC 从 80.51% 降到 80.31%。当移除特征导向型蒸馏(FgD)时,R@M 从 74.06% 降到 73.29%,性能下降明显,说明在训练中进行特征对齐很重要。同时,移除目标导向型蒸馏(TgD)也会导致模型的性能下降。上述结果说明双向蒸馏是一种提升预训练模型泛化性的有效方法。



零样本任务。为了证明模型的泛化性能,研究者还进行了零样本迁移实验。从下表 4 中可以看出,与目前 SOTA 性能的 WukongViT-L 相比,R2D2ViT-L(23M)仅使用了不到 1/4 的数据,却在 Flickr30k-CN、COCO-CN 上都取得了更好的性能。当引入 2.5 亿级别的预训练数据时,R2D2 的精度获得进一步提升,相对 WukongViT-L,在 Flickr30k-CN 数据集上,R@M 提升到 85.6%(提升了 4.7%),在 COCO-CN 数据集上,R@M 提升到 80.5%(提升了 5.4%),在 MUGE 数据集上,R@M 提升到 69.5%(提升了 6.3%)。



基于实体的图像注意力可视化。在本实验中,研究者尝试在 COCO-CN 上可视化图像的注意力。具体来说,他们首先从中文文本中提取一个实体,并计算图像与实体对的注意力得分。下图 2 展示了四个不同实体在图像上的可视化解释。这表明 R2D2 很好地学会了将文本与图像中的正确内容对齐。



相关文章
|
30天前
|
Linux Docker 容器
【2026最新 架构环境安装篇一】云服务器Linux安装docker详细教程
本文介绍了在CentOS系统上安装Docker的完整步骤,包括更新系统、配置阿里云镜像源、安装Docker引擎及常用工具,并设置多个国内镜像加速器以提升拉取速度,最后通过命令验证安装成功。适用于希望快速部署Docker并优化网络性能的用户。
238 1
|
资源调度
一天掌握latex论文编辑,从标题作者,段落,数学公式,图片,图表,到参考文献全流程
一天掌握latex论文编辑,从标题作者,段落,数学公式,图片,图表,到参考文献全流程
1772 0
|
4月前
|
前端开发 Go API
Coze Loop 架构学习指南
本指南系统解析 Coze Loop 架构,涵盖项目结构、DDD 设计、技术栈与学习路径,助你从零掌握 AI Agent 平台开发与贡献。
436 2
|
5月前
|
Ubuntu 安全 关系型数据库
安装MariaDB服务器流程介绍在Ubuntu 22.04系统上
至此, 您已经在 Ubuntu 22.04 系统上成功地完成了 MariadB 的标准部署流程,并且对其进行基础但重要地初步配置加固工作。通过以上简洁明快且实用性强大地操作流程, 您现在拥有一个待定制与使用地强大 SQL 数据库管理系统。
406 15
|
10月前
|
存储 开发框架 安全
阿里云轻量应用服务器38元与云服务器99元和199元区别及选择参考
2025年,阿里云推出了多款价格比较实惠的轻量应用服务器和云服务器,这些产品以其卓越的性能和亲民的价格,吸引了众多个人开发者、小型网站以及中小企业的关注。本文将对这几款轻量应用服务器和云服务器进行详细对比和测评,分析其性能和适用场景,以供大家在选择时参考。
国家互联网信息办公室关于发布第十批深度合成服务算法备案信息的公告
2025年3月12日,国家网信办公布第十批深度合成算法备案信息,共395款算法通过公示。根据《互联网信息服务深度合成管理规定》,境内深度合成服务提供者和技术支持者需履行备案手续。具体信息可在中国互联网信息服务算法备案系统查询,疑议请发邮件至指定邮箱。附件含完整备案清单。
|
Java Maven
IntelliJ IDEA的maven如何提高下载速度
IntelliJ IDEA的maven如何提高下载速度
1228 0
|
机器学习/深度学习 算法
XGBoost中正则化的9个超参数
本文探讨了XGBoost中多种正则化方法及其重要性,旨在通过防止过拟合来提升模型性能。文章首先强调了XGBoost作为一种高效算法在机器学习任务中的应用价值,并指出正则化对于缓解过拟合问题的关键作用,具体包括降低模型复杂度、改善泛化能力和防止模型过度适应训练数据。随后,文章详细介绍了四种正则化方法:减少估计器数量(如使用`early_stopping_rounds`)、使用更简单的树(如调整`gamma`和`max_depth`)、采样(如设置`subsample`和`colsample`)以及收缩(如调节`learning_rate`, `lambda`和`alpha`)。
572 0
XGBoost中正则化的9个超参数
|
开发工具 git
idea中git替换,推送到新的github或者gitlab上面
idea中git替换,推送到新的github或者gitlab上面
1358 2
|
敏捷开发 缓存 Devops
阿里云云效产品使用合集之如何配置流水线以便在push代码时触发
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。