从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA(1)

简介: 从50亿图文中提取中文跨模态新基准Zero,奇虎360全新预训练框架超越多项SOTA

对于中文社区来说,本文提出的大规模跨模态基准数据集无疑很有价值


视觉语言预训练(VLP)主要学习视觉与自然语言之间的语义对应关系。得益于海量数据、Transformer 等优秀架构、CLIP 等跨模态模型以及硬件设备的支持,一系列开创性的工作探索了 VLP 模型,并在各种视觉语言任务上取得了显著进展。


借助大规模训练语料库(主要是英语),众多 VLP 模型已被证明对下游任务有益。然而中文视觉语言数据集很少,并且存在各种局限性。针对大规模预训练模型加下游任务精调的经典模式,中文跨模态领域缺少一个包含大量优质数据,且完整定义了预训练数据集、多个下游任务训练集及下游任务测试集的数据基准。


如何构建一个完整、公平且具有高质量文本描述的中文跨模态基准成为一个亟需解决的问题。


最近,奇虎 360 人工智能研究院和清华大学的研究者在其最新论文中重点关注了大规模视觉语言数据集和跨模态表征学习模型。研究者提出了一个大规模中文跨模态基准数据集 Zero,它包含了两个被称为 Zero-Corpus 的预训练数据集和五个下游任务数据集,一定程度上填补了中文图文跨模态领域数据集的空白。进一步,研究者们还提出了一个视觉语言预训练框架 R2D2,用于大规模跨模态学习,基于所提出的 Zero-Corpus 数据集进行预训练,并在多个下游任务上进行测试,R2D2 取得了多项超越 SOTA 的结果。上述数据集和模型,均已开源。


研究者还尝试用更大的 2.5 亿内部数据集训练 R2D2 模型,相对 2300 万数据,模型效果依然有显著提升。特别是在零样本任务上,相对此前的 SOTA,在 Flickr30k-CN 数据集上,R@M 提升到 85.6%(提升了 4.7%),在 COCO-CN 数据集上,R@M 提升到 80.5%(提升了 5.4%),在 MUGE 数据集上,R@M 提升到 69.5%(提升了 6.3%)。



论文地址:https://arxiv.org/pdf/2205.03860.pdf


Zero-Corpus 预训练数据集是由一个包含 2300 万图文对的完整版本和一个包含 230 万图文对的更小子集版本组成。其中,完整的预训练数据集从搜索引擎中收集,包含有图像和对应的文本描述,并根据用户点击率(CTR)从 50 亿个图文中过滤得到。在完整版本上训练 VLP 模型可能需要大量的 GPU 资源,因此为便于学术研究,研究者还提供了具有完整版本 10% 图文对的子集 230 万版本。


除了两个预训练数据集之外,研究者还为长短文本的图文检索和图文匹配任务提供了五个高质量的下游数据集。特别值得一提的是 Flickr30k-CNA,它是一个经过人工翻译的比 Flickr30k-CN 更准确的数据集,可被用来对比中英文跨模态模型的效果,也可以用来研究翻译语料质量对于结果的影响。


对于 VLP 模型,研究者提出了一个用于跨模态学习的全新预训练框架 R2D2。这个框架将双塔模型和单塔模型结合,在图像模态表示和文本模态表示的基础上,利用交叉注意力机制,融合图文信息,并受推荐系统和在线广告等技术的启发,使用全局对比预排序(Global Contrastive Pre-Ranking, GCPR)来获得跨模态表示,最终使用细粒度排序(Fine-Grained Ranking, FGR)进一步提升模型性能。


进一步,研究者还介绍了一种双向蒸馏方法,包括目标导向型蒸馏(Target-guided Distillation,TgD)和特征导向型蒸馏(Feature-guided Distillation,FgD)。其中,目标导向型蒸馏提升了从噪声标签中学习的稳健性,特征导向型蒸馏旨在提升 R2D2 的泛化性。


数据集概览


预训练数据集 Zero Corpus


现有数据收集方法存在两个主要的局限。其一,仅通过爬取方式收集到的图文对图文对应关系较弱,存在较大噪声;其二,图像往往只包含一个对应文本,文本数据缺乏多样性。


为了克服上述局限,研究者为中文图文预训练创建了一个新数据集——Zero Corpus。他们对图像搜索引擎中的 50 亿张图像,按照用户点击进行排序,排序靠前的图片表明用户查询时点击次数最多,说明该图片和搜索查询文本最相关。进一步,研究者还删除了不恰当和有害的文本描述,并过滤掉有害的图片。上述流程,最大程度提高了图片和文本数据的对应关系,过滤得到高质量图片。研究者依照上述方式共处理得到大约 2.5 亿最相关且高质量的图文对,最终随机抽取其中 2300 万个图文对用于构建公开预训练数据集。


研究者还为每个图像提供了多样化的文本描述,包括标题(Title)、内容(Content)和图像查询词(ImageQuery)等。这些包含多个文本在内的信息,可以用于构建不同的跨模态任务,便于更全面地建模和研究图文之间的跨模态关系。下图显示了一些具体例子。


Zero-Corpus 图文对示例。


下游数据集


为了评估预训练模型的性能,大多数工作都会在各种下游数据集上进行实验。与现有具有英文描述的下游数据集相比,带有中文文本的下游数据集很少。


为此,研究者构建了四个中文图文数据集,分别是 ICM、IQM、ICR 和 IQR。在预训练数据处理基础上(经过点击次数排序,以及优质内容过滤),进一步通过人工标记这些下游任务的标签,保证数据的准确性。对于每个下游任务数据集,按照 8:1:1 的比例划分训练集、验证集和测试集。与预训练数据不同的是,这些下游任务的数据集,每个图像只保留一个对应的文本。


图像标题匹配数据集(Image-Caption Matching Dataset, ICM)用于长文本图文匹配分类任务。每个图像具有一个对应的标题文本,对图像进行详细描述。研究者首先使用 CTR 选择最相关的对,然后通过人工标注校准,共获得了 40 万个图文对,包括 20 万个正样本和 20 万个反样本。


图像查询匹配数据集(Image-Query Matching Dataset, IQM)用于短文本图文匹配分类任务。与 ICM 数据收集方式相近,只是使用了搜索查询来替代详细的描述文本。IQM 同样包含 20 万个正样本和 20 万个反样本。


图像标题检索数据集(Image-Caption Retrieval Dataset, ICR)用于长文本图文互检任务。研究者采用与 ICM 相同的规则收集了 20 万个图文对。


图像查询检索数据集(Image-Query Retrieval Dataset, IQR)用于短文本图文互检任务。研究者采用与 IQM 相同的规则收集了 20 万个图文对。


从左到右依次为 ICM、IQM、ICR 和 IQR 数据集中的图文示例。


此前的 Flickr30k-CN 使用机器翻译翻译了 Flickr30k 的训练集和验证集,但机器翻译的结果普遍存在两类问题。一方面,部分句子存在一定的翻译错误;另一方面,一些句子的中文语义并不通顺。


因此,研究者邀请了六位中英文语言学专业人士重新翻译了 Flickr30k 的所有数据,并对每个句子进行了双重检查,最终生成新数据集 Flickr30k-Chinese All(Flickr30k-CNA),用于进行图文跨模态任务评测。


Flickr30k、Flickr30k-CN 和本文提出的 Flickr30k-CNA 的示例对比。



相关文章
|
存储 缓存 Linux
如何在Linux环境下对pip的缓存地址进行修改
如何在Linux环境下对pip的缓存地址进行修改
2790 0
|
9月前
|
机器学习/深度学习 编解码 自然语言处理
SigLIP 2:多语言语义理解、定位和密集特征的视觉语言编码器
SigLIP 2 是一种改进的多语言视觉-语言编码器系列,通过字幕预训练、自监督学习和在线数据管理优化性能。它在零样本分类、图像-文本检索及视觉表示提取中表现卓越,支持多分辨率处理并保持图像纵横比。模型提供 ViT-B 至 g 四种规格,采用 WebLI 数据集训练,结合 Sigmoid 损失与自蒸馏等技术提升效果。实验表明,SigLIP 2 在密集预测、定位任务及多模态应用中显著优于前代和其他基线模型。
830 9
SigLIP 2:多语言语义理解、定位和密集特征的视觉语言编码器
|
文字识别 自然语言处理 数据可视化
Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
在 Qwen2 发布后的过去三个月里,许多开发者基于 Qwen2 语言模型构建了新的模型,并提供了宝贵的反馈。在这段时间里,通义千问团队专注于创建更智能、更博学的语言模型。今天,Qwen 家族的最新成员:Qwen2.5系列正式开源
Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
|
异构计算
CCF推荐B类会议和期刊总结:(计算机体系结构/并行与分布计算/存储系统领域)
中国计算机学会(CCF)定期发布国际学术会议和期刊目录,为科研人员提供参考。本文总结了计算机体系结构、并行与分布计算、存储系统领域的CCF推荐B类会议和期刊,包括会议和期刊的全称、出版社、dblp文献网址及领域分类。会议涵盖了SoCC、SPAA、PODC等26项重要国际会议,期刊则包括TAAS、TODAES、TECS等9种权威期刊,为相关领域的研究者提供了宝贵的资源。
CCF推荐B类会议和期刊总结:(计算机体系结构/并行与分布计算/存储系统领域)
|
算法 Java C语言
【数据结构】后缀(逆波兰)表达式的计算以及中缀转后缀的方法
【数据结构】后缀(逆波兰)表达式的计算以及中缀转后缀的方法
3103 1
|
缓存 算法 安全
MAC地址_MAC地址格式_以太网的MAC帧_基础知识
MAC地址是全球每块网卡唯一的介质访问控制地址,由6字节构成,前24位为厂商代码,后24位为序列号。网卡需安装驱动程序才能正常工作,并实现物理层和数据链路层功能及传输模式转换。MAC地址通常固化在EEPROM中,属于数据链路层范畴。以太网MAC帧包括前导码、地址、类型、数据和校验码,接收方根据MAC地址处理帧。网卡可设为混杂模式接收所有帧,便于网络分析,但也可能被黑客利用。
1459 10
|
安全 数据安全/隐私保护
弱口令检测 -- WebCrack v(1.1)
弱口令检测 -- WebCrack v(1.1)
271 0
|
存储 大数据 Python
NumPy 内存管理和性能调优
【8月更文第30天】NumPy 是 Python 中用于科学计算的核心库之一,它提供了高效的数组操作功能。然而,随着数据集的增大,如何有效地管理和优化 NumPy 数组的内存使用成为了一个重要的问题。本文将介绍一些技巧,帮助你更好地管理和优化 NumPy 数组的内存使用。
631 0
Rockchip系列之LED状态灯 CAN收发数据流程以及控制状态显示(4)
Rockchip系列之LED状态灯 CAN收发数据流程以及控制状态显示(4)
451 3
|
算法 安全 数据安全/隐私保护
C/C++学习 -- 分组加密算法(DES算法)
C/C++学习 -- 分组加密算法(DES算法)
650 0