CIKM2022 | ChiQA-一个基于20万个真实用户问题的图片问答数据集（2）-阿里云开发者社区

CIKM2022 | ChiQA-一个基于20万个真实用户问题的图片问答数据集（2）

2023-05-18 285

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： CIKM2022 | ChiQA-一个基于20万个真实用户问题的图片问答数据集

数据的推理和分析

在标注完数据之后，我们对 ChiQA 中的数据进行统计和分析。

1）query 常用词分析：

我们用结巴分词对 query 进行切分，并且将 query 中的词按照频率展示在下面的云图上：

可以看到 ChiQA 中最常见的 query 是区别、图解、位置等。这和我们的直觉一样，因为这些词确实是很适合图片来回答的问题。

2）领域分析

我们使用内部的一个领域分类的分类器来对所有的 query 进行分类，最终的结果如下图所示：

可以看到我们的数据包含有很多种领域的数据，并且没有某一种领域的数据是占绝对多数的。这保证了我们的数据分布是均匀的。其次，我们对问题里面的疑问词也进行统计，结果如下图所示：

可以看到 ChiQA 中 what 类和 how to 类问题占了大多数，而其他的一些问题也有相当大的比例。

3）图像分析

除了问题之外，我们也对 ChiQA 中的图像进行了分析。由于图像大部分是语言无关的，因此我们采用了一个在业界公认性能比较优良的目标检测模型 DETR 来挖掘出图像中的实体。DETR 可以将图像中的实体映射到标准 MS-COCO 定义的实体中，如 “人物”、“狗” 等。我们对 ChiQA 中的每个图像挖掘出实体，并将最高频次的实体分布展示在下图中：

可以看到在 ChiQA 中有超过 30 个实体出现了至少 1000 次，这显示出 ChiQA 是一个分布非常均匀并且覆盖了大部分领域的图像数据，其中出现次数最多的实体是 “人物”、“手机”、“汽车” 等。这个和问题的分布类似。

4）推理技能

为了更好地分析数据，我们还对 ChiQA 数据中所需要的推理技能进行了分析。着重分析了 5 中需要推理的技能：

Grouding: 需要模型和系统将问题中提到的实体进行理解和定位
阅读：需要模型理解图片中出现的文字部分
对比：需要模型对比一些不同的属性和内容，例如身高、大小等等
因果推理：模型需要深层次理解问题和图片中存在的因果部分（即事物发生的原因或者造成的结果）
逻辑推理：需要模型理解问题或者图片中的一些逻辑比较因素，例如否定、条件等等

我们随机采样了 200 条数 ChiQA 据并且根据上述 5 个标准进行标注，其中某些数据可能需要不止一种推理技能。其结果如下图所示。

可以看到除了 Grouding 之外，超过 80% 的 ChiQA 数据需要深度理解图片中的文字和对比关系。这和之前大部分的 VQA 数据很不一样。其次，有相当多的问题需要逻辑和对比，说明 ChiQA 中的数据具有相当的难度。我们认为对 ChiQA 中推理技能的分析可以帮助我们更好地理解这个数据，并且为后续的模型设计提供一些先验的指导。

实验评估指标

在 ChiQA 数据集中，标注打分有三挡：0，1，2，所以在实验中我们测试模型排序的指标和普通分类的指标。分为三类：

NDCG@N：Normalized Discounted Cumulative Gain
Mean Average Precision（MAP@N）：平均精度 (MAP@N)
Accuray / Precision / Recall / F1

基线模型

我们在 ChiQA 数据集上实验了多个常用的模型。仿照之前图片 - 文本匹配的工作，我们先把图片和文本分别用编码器进行编码，然后将它们的表示进行跨模态融合，最后用一个预测层来获取匹配得分。在下面所列模型中，加♣代表模型经过了预训练，加♦则表示没有。

Random♦：对测试集中的每条数据，在 0、1、2 中随机选择一个预测分数，random 模型是作为 ChiQA 上的一个基线模型。
Majority♦：选择训练集中出现最多的标签作为测试集上所有数据的预测分数。
LSTM+ResNet♦：在文本和视觉的大规模预训练模型出现前，LSTM 和 ResNet 分别是文本和视觉领域最常用的模型之一。
Bert+ViT♣：我们使用 Bert 模型编码查询文本，使用 ViT 模型编码图片，其中，Bert 和 ViT 模型都是在大规模无监督数据上预训练过的。最后使用 < CLS > 的表示向量进行匹配分数预测。
ALBEF♣：ALBEF 是一种大规模的视觉和语言表示学习，已经在各种视觉语言任务上展示出较大的改进。
+Pretrain♣：对于中文的跨模态预训练，我们在悟空数据集上对Bert-ViT和ALBEF进行跨膜态预训练，预训练方式和ALBEF类似。悟空数据集是一个包含1亿个图片-文本对的开源跨模态数据。
Wenlan♣：Wenlan 是一个大规模的多模态预训练模型，在 3000 万文本-图像对上进行了训练，模型包含近十亿个参数。我们使用他们公开的api服务获取文本和图片的表示向量，并使用两个向量的Cos相似度作为预测的匹配分数。
Human：除了上述这些模型，我们还评估了人类在测试集上的预测水平。由于测试集数据较多，我们人工随机抽样了 100 条数据进行预测和评估预测指标。

以下是结果显示：

上述模型在测试集上的指标如图所示。我们可以看到，直接应用之前最先进的跨模态方法的效果很差，指标仅比随机打分模型好一点。这意味着 ChiQA 数据较难，仅使用大规模的弱监督对比学习的模型，如 ALBEF*、Wenlan，可能无法区分视觉问答所需的细粒度信息。此外，这些模型的糟糕表现说明，ChiQA 数据集不同于之前弱监督的图像 - 文本匹配数据，因为弱监督的图像 - 文本匹配侧重于相关性，而 ChiQA 数据同时要求图片的可回答性。

最后，在 ChiQA 上微调的模型在基线上取得了很大的进步，但与人类的表现仍然相差较远，所以模型在 ChiQA 数据集还有很大的提升空间。

ChiQA在产品里的应用

随着互联网的发展，用户对问答的需求更高，需要系统提供更为直观、便捷的答案。特别是最近几年，多媒体内容愈加的丰富，以图片、视频为载体的问答内容越来越多的出现在公众面前。QQ 浏览器实验室立知团队在今年 4 月份率先在业界推出图片问答项目，如用户搜猕猴桃和奇异果的区别，结果会以图片的形式直观的展现在用户面前。如下图所示：

当前这种可以直接由图片满足的问题上线后取得了良好的效果。我们观察到其用户行为（如 CTR、换词率等）相较于传统的结果有着明显的改善，说明当前以图片等为载体的 “新问答” 是一个更能满足用户需求的产品业务。

作者团队介绍

QQ 浏览器搜索技术中心团队是腾讯 PCG 信息平台与服务线负责搜索技术研发的团队，依托腾讯内容生态，通过用户研究驱动产品创新，为用户提供图文、资讯、小说、长短视频、服务等多方位的信息需求满足。在算法方面，以自然语言处理、深度学习、多模态理解与生成、知识计算与应用等技术为基础，建设内容理解、相关性和排序、多模态搜索、智能问答、多语言翻译、搜索推荐等技术方向，探索和应用业界先进技术、打造更优秀的用户搜索体验；在工程方面，建设搜索技术中台工业化系统，打磨高性能、高可用、低成本的百亿级检索系统，为腾讯 PCG 各个内容业务的搜索场景提供基础的搜索引擎服务，当前已支持 QQ 浏览器、腾讯视频、腾讯新闻、腾讯微视等 PCG 多条产品线。

CIKM2022 | ChiQA-一个基于20万个真实用户问题的图片问答数据集（2）

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

CIKM2022 | ChiQA-一个基于20万个真实用户问题的图片问答数据集（2）

热门文章

最新文章

相关电子书