数据的推理和分析
在标注完数据之后,我们对 ChiQA 中的数据进行统计和分析。
1)query 常用词分析:
我们用结巴分词对 query 进行切分,并且将 query 中的词按照频率展示在下面的云图上:
可以看到 ChiQA 中最常见的 query 是区别、图解、位置等。这和我们的直觉一样,因为这些词确实是很适合图片来回答的问题。
2)领域分析
我们使用内部的一个领域分类的分类器来对所有的 query 进行分类,最终的结果如下图所示:
可以看到我们的数据包含有很多种领域的数据,并且没有某一种领域的数据是占绝对多数的。这保证了我们的数据分布是均匀的。其次,我们对问题里面的疑问词也进行统计,结果如下图所示:
可以看到 ChiQA 中 what 类和 how to 类问题占了大多数,而其他的一些问题也有相当大的比例。
3)图像分析
除了问题之外,我们也对 ChiQA 中的图像进行了分析。由于图像大部分是语言无关的,因此我们采用了一个在业界公认性能比较优良的目标检测模型 DETR 来挖掘出图像中的实体。DETR 可以将图像中的实体映射到标准 MS-COCO 定义的实体中,如 “人物”、“狗” 等。我们对 ChiQA 中的每个图像挖掘出实体,并将最高频次的实体分布展示在下图中:
可以看到在 ChiQA 中有超过 30 个实体出现了至少 1000 次,这显示出 ChiQA 是一个分布非常均匀并且覆盖了大部分领域的图像数据,其中出现次数最多的实体是 “人物”、“手机”、“汽车” 等。这个和问题的分布类似。
4)推理技能
为了更好地分析数据,我们还对 ChiQA 数据中所需要的推理技能进行了分析。着重分析了 5 中需要推理的技能:
- Grouding: 需要模型和系统将问题中提到的实体进行理解和定位
- 阅读:需要模型理解图片中出现的文字部分
- 对比:需要模型对比一些不同的属性和内容,例如身高、大小等等
- 因果推理:模型需要深层次理解问题和图片中存在的因果部分(即事物发生的原因或者造成的结果)
- 逻辑推理:需要模型理解问题或者图片中的一些逻辑比较因素,例如否定、条件等等
我们随机采样了 200 条数 ChiQA 据并且根据上述 5 个标准进行标注,其中某些数据可能需要不止一种推理技能。其结果如下图所示。
可以看到除了 Grouding 之外,超过 80% 的 ChiQA 数据需要深度理解图片中的文字和对比关系。这和之前大部分的 VQA 数据很不一样。其次,有相当多的问题需要逻辑和对比,说明 ChiQA 中的数据具有相当的难度。我们认为对 ChiQA 中推理技能的分析可以帮助我们更好地理解这个数据,并且为后续的模型设计提供一些先验的指导。
实验评估指标
在 ChiQA 数据集中,标注打分有三挡:0,1,2,所以在实验中我们测试模型排序的指标和普通分类的指标。分为三类:
- NDCG@N:Normalized Discounted Cumulative Gain
- Mean Average Precision(MAP@N):平均精度 (MAP@N)
- Accuray / Precision / Recall / F1
基线模型
我们在 ChiQA 数据集上实验了多个常用的模型。仿照之前图片 - 文本匹配的工作,我们先把图片和文本分别用编码器进行编码,然后将它们的表示进行跨模态融合,最后用一个预测层来获取匹配得分。在下面所列模型中,加♣代表模型经过了预训练,加♦则表示没有。
- Random♦:对测试集中的每条数据,在 0、1、2 中随机选择一个预测分数,random 模型是作为 ChiQA 上的一个基线模型。
- Majority♦:选择训练集中出现最多的标签作为测试集上所有数据的预测分数。
- LSTM+ResNet♦:在文本和视觉的大规模预训练模型出现前,LSTM 和 ResNet 分别是文本和视觉领域最常用的模型之一。
- Bert+ViT♣:我们使用 Bert 模型编码查询文本,使用 ViT 模型编码图片,其中,Bert 和 ViT 模型都是在大规模无监督数据上预训练过的。最后使用 < CLS > 的表示向量进行匹配分数预测。
- ALBEF♣:ALBEF 是一种大规模的视觉和语言表示学习,已经在各种视觉语言任务上展示出较大的改进。
- +Pretrain♣:对于中文的跨模态预训练,我们在悟空数据集上对Bert-ViT和ALBEF进行跨膜态预训练,预训练方式和ALBEF类似。悟空数据集是一个包含1亿个图片-文本对的开源跨模态数据。
- Wenlan♣:Wenlan 是一个大规模的多模态预训练模型,在 3000 万文本-图像对上进行了训练,模型包含近十亿个参数。我们使用他们公开的api服务获取文本和图片的表示向量,并使用两个向量的Cos相似度作为预测的匹配分数。
- Human:除了上述这些模型,我们还评估了人类在测试集上的预测水平。由于测试集数据较多,我们人工随机抽样了 100 条数据进行预测和评估预测指标。
以下是结果显示:
上述模型在测试集上的指标如图所示。我们可以看到,直接应用之前最先进的跨模态方法的效果很差,指标仅比随机打分模型好一点。这意味着 ChiQA 数据较难,仅使用大规模的弱监督对比学习的模型,如 ALBEF*、Wenlan,可能无法区分视觉问答所需的细粒度信息。此外,这些模型的糟糕表现说明,ChiQA 数据集不同于之前弱监督的图像 - 文本匹配数据,因为弱监督的图像 - 文本匹配侧重于相关性,而 ChiQA 数据同时要求图片的可回答性。
最后,在 ChiQA 上微调的模型在基线上取得了很大的进步,但与人类的表现仍然相差较远,所以模型在 ChiQA 数据集还有很大的提升空间。
ChiQA在产品里的应用
随着互联网的发展,用户对问答的需求更高,需要系统提供更为直观、便捷的答案。特别是最近几年,多媒体内容愈加的丰富,以图片、视频为载体的问答内容越来越多的出现在公众面前。QQ 浏览器实验室立知团队在今年 4 月份率先在业界推出图片问答项目,如用户搜猕猴桃和奇异果的区别,结果会以图片的形式直观的展现在用户面前。如下图所示:
当前这种可以直接由图片满足的问题上线后取得了良好的效果。我们观察到其用户行为(如 CTR、换词率等)相较于传统的结果有着明显的改善,说明当前以图片等为载体的 “新问答” 是一个更能满足用户需求的产品业务。
作者团队介绍
QQ 浏览器搜索技术中心团队是腾讯 PCG 信息平台与服务线负责搜索技术研发的团队,依托腾讯内容生态,通过用户研究驱动产品创新,为用户提供图文、资讯、小说、长短视频、服务等多方位的信息需求满足。在算法方面,以自然语言处理、深度学习、多模态理解与生成、知识计算与应用等技术为基础,建设内容理解、相关性和排序、多模态搜索、智能问答、多语言翻译、搜索推荐等技术方向,探索和应用业界先进技术、打造更优秀的用户搜索体验;在工程方面,建设搜索技术中台工业化系统,打磨高性能、高可用、低成本的百亿级检索系统,为腾讯 PCG 各个内容业务的搜索场景提供基础的搜索引擎服务,当前已支持 QQ 浏览器、腾讯视频、腾讯新闻、腾讯微视等 PCG 多条产品线。






