CIKM2022 | ChiQA-一个基于20万个真实用户问题的图片问答数据集(2)

简介: CIKM2022 | ChiQA-一个基于20万个真实用户问题的图片问答数据集

数据的推理和分析


在标注完数据之后,我们对 ChiQA 中的数据进行统计和分析。


1)query 常用词分析:


我们用结巴分词对 query 进行切分,并且将 query 中的词按照频率展示在下面的云图上:


可以看到 ChiQA 中最常见的 query 是区别、图解、位置等。这和我们的直觉一样,因为这些词确实是很适合图片来回答的问题。


2)领域分析


我们使用内部的一个领域分类的分类器来对所有的 query 进行分类,最终的结果如下图所示:


可以看到我们的数据包含有很多种领域的数据,并且没有某一种领域的数据是占绝对多数的。这保证了我们的数据分布是均匀的。其次,我们对问题里面的疑问词也进行统计,结果如下图所示:

可以看到 ChiQA 中 what 类和 how to 类问题占了大多数,而其他的一些问题也有相当大的比例。


3)图像分析


除了问题之外,我们也对 ChiQA 中的图像进行了分析。由于图像大部分是语言无关的,因此我们采用了一个在业界公认性能比较优良的目标检测模型 DETR 来挖掘出图像中的实体。DETR 可以将图像中的实体映射到标准 MS-COCO 定义的实体中,如 “人物”、“狗” 等。我们对 ChiQA 中的每个图像挖掘出实体,并将最高频次的实体分布展示在下图中:


可以看到在 ChiQA 中有超过 30 个实体出现了至少 1000 次,这显示出 ChiQA 是一个分布非常均匀并且覆盖了大部分领域的图像数据,其中出现次数最多的实体是 “人物”、“手机”、“汽车” 等。这个和问题的分布类似。

4)推理技能


为了更好地分析数据,我们还对 ChiQA 数据中所需要的推理技能进行了分析。着重分析了 5 中需要推理的技能:


  • Grouding: 需要模型和系统将问题中提到的实体进行理解和定位
  • 阅读:需要模型理解图片中出现的文字部分
  • 对比:需要模型对比一些不同的属性和内容,例如身高、大小等等
  • 因果推理:模型需要深层次理解问题和图片中存在的因果部分(即事物发生的原因或者造成的结果)
  • 逻辑推理:需要模型理解问题或者图片中的一些逻辑比较因素,例如否定、条件等等


我们随机采样了 200 条数 ChiQA 据并且根据上述 5 个标准进行标注,其中某些数据可能需要不止一种推理技能。其结果如下图所示。


可以看到除了 Grouding 之外,超过 80% 的 ChiQA 数据需要深度理解图片中的文字和对比关系。这和之前大部分的 VQA 数据很不一样。其次,有相当多的问题需要逻辑和对比,说明 ChiQA 中的数据具有相当的难度。我们认为对 ChiQA 中推理技能的分析可以帮助我们更好地理解这个数据,并且为后续的模型设计提供一些先验的指导。


实验评估指标


在 ChiQA 数据集中,标注打分有三挡:0,1,2,所以在实验中我们测试模型排序的指标和普通分类的指标。分为三类:


  • NDCG@N:Normalized Discounted Cumulative Gain
  • Mean Average Precision(MAP@N):平均精度 (MAP@N)
  • Accuray / Precision / Recall / F1


基线模型

我们在 ChiQA 数据集上实验了多个常用的模型。仿照之前图片 - 文本匹配的工作,我们先把图片和文本分别用编码器进行编码,然后将它们的表示进行跨模态融合,最后用一个预测层来获取匹配得分。在下面所列模型中,加♣代表模型经过了预训练,加♦则表示没有。


  • Random♦:对测试集中的每条数据,在 0、1、2 中随机选择一个预测分数,random 模型是作为 ChiQA 上的一个基线模型。
  • Majority♦:选择训练集中出现最多的标签作为测试集上所有数据的预测分数。
  • LSTM+ResNet♦:在文本和视觉的大规模预训练模型出现前,LSTM 和 ResNet 分别是文本和视觉领域最常用的模型之一。
  • Bert+ViT♣:我们使用 Bert 模型编码查询文本,使用 ViT 模型编码图片,其中,Bert 和 ViT 模型都是在大规模无监督数据上预训练过的。最后使用 < CLS > 的表示向量进行匹配分数预测。
  • ALBEF♣:ALBEF 是一种大规模的视觉和语言表示学习,已经在各种视觉语言任务上展示出较大的改进。
  • +Pretrain♣:对于中文的跨模态预训练,我们在悟空数据集上对Bert-ViT和ALBEF进行跨膜态预训练,预训练方式和ALBEF类似。悟空数据集是一个包含1亿个图片-文本对的开源跨模态数据。
  • Wenlan♣:Wenlan 是一个大规模的多模态预训练模型,在 3000 万文本-图像对上进行了训练,模型包含近十亿个参数。我们使用他们公开的api服务获取文本和图片的表示向量,并使用两个向量的Cos相似度作为预测的匹配分数。
  • Human:除了上述这些模型,我们还评估了人类在测试集上的预测水平。由于测试集数据较多,我们人工随机抽样了 100 条数据进行预测和评估预测指标。


以下是结果显示:


上述模型在测试集上的指标如图所示。我们可以看到,直接应用之前最先进的跨模态方法的效果很差,指标仅比随机打分模型好一点。这意味着 ChiQA 数据较难,仅使用大规模的弱监督对比学习的模型,如 ALBEF*、Wenlan,可能无法区分视觉问答所需的细粒度信息。此外,这些模型的糟糕表现说明,ChiQA 数据集不同于之前弱监督的图像 - 文本匹配数据,因为弱监督的图像 - 文本匹配侧重于相关性,而 ChiQA 数据同时要求图片的可回答性。

最后,在 ChiQA 上微调的模型在基线上取得了很大的进步,但与人类的表现仍然相差较远,所以模型在 ChiQA 数据集还有很大的提升空间。


ChiQA在产品里的应用


随着互联网的发展,用户对问答的需求更高,需要系统提供更为直观、便捷的答案。特别是最近几年,多媒体内容愈加的丰富,以图片、视频为载体的问答内容越来越多的出现在公众面前。QQ 浏览器实验室立知团队在今年 4 月份率先在业界推出图片问答项目,如用户搜猕猴桃和奇异果的区别,结果会以图片的形式直观的展现在用户面前。如下图所示:


当前这种可以直接由图片满足的问题上线后取得了良好的效果。我们观察到其用户行为(如 CTR、换词率等)相较于传统的结果有着明显的改善,说明当前以图片等为载体的 “新问答” 是一个更能满足用户需求的产品业务。


作者团队介绍


QQ 浏览器搜索技术中心团队是腾讯 PCG 信息平台与服务线负责搜索技术研发的团队,依托腾讯内容生态,通过用户研究驱动产品创新,为用户提供图文、资讯、小说、长短视频、服务等多方位的信息需求满足。在算法方面,以自然语言处理、深度学习、多模态理解与生成、知识计算与应用等技术为基础,建设内容理解、相关性和排序、多模态搜索、智能问答、多语言翻译、搜索推荐等技术方向,探索和应用业界先进技术、打造更优秀的用户搜索体验;在工程方面,建设搜索技术中台工业化系统,打磨高性能、高可用、低成本的百亿级检索系统,为腾讯 PCG 各个内容业务的搜索场景提供基础的搜索引擎服务,当前已支持 QQ 浏览器、腾讯视频、腾讯新闻、腾讯微视等 PCG 多条产品线。

相关文章
|
数据安全/隐私保护 Windows
svn篇1:svn下载安装
svn篇1:svn下载安装
737 0
|
小程序 JavaScript 前端开发
微信小程序前后端交互与WXS的应用
微信小程序前后端交互与WXS的应用
487 0
|
7月前
|
SQL 机器学习/深度学习 监控
构建数据中枢:数据中台指标体系如何赋能企业运营
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
9月前
|
数据采集 人工智能 文字识别
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集,旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式问答对,支持知识问答、推理任务和创造性任务。
477 10
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
|
2月前
|
机器学习/深度学习 数据采集 自然语言处理
99_监督微调:Alpaca数据集格式与实现
在大语言模型(LLM)的开发和应用中,微调是将通用预训练模型转化为特定任务专家的关键步骤。监督微调(Supervised Fine-Tuning, SFT)作为微调的一种重要范式,通过人工标注的高质量数据集指导模型学习特定任务的输入输出模式,从而显著提升模型在目标任务上的性能。
|
12月前
|
人工智能 文字识别 并行计算
行业实践 | 基于Qwen2-VL实现医疗表单结构化输出
本项目针对不同医院检查报告单样式差异大、手机拍摄质量差等问题,传统OCR识别效果不佳的情况,探索并选定了Qwen2-vl系列视觉语言模型。通过微调和优化,模型在识别准确率上显著提升,能够精准识别并结构化输出报告单信息,支持整张报告单及特定项目的识别。系统采用FastAPI封装接口,Gradio构建展示界面,具备高效、灵活的应用特性。未来该方案可扩展至多种文本识别场景,助力行业数字化转型。
1006 20
|
计算机视觉
Opencv学习笔记(五):cv2.putText()和cv2.rectangle()详细理解
这篇文章详细介绍了OpenCV库中的`cv2.putText()`和`cv2.rectangle()`函数的使用方法,并通过一个实战例子展示了如何使用这些函数在图像上绘制文字和矩形框。
1303 0
Opencv学习笔记(五):cv2.putText()和cv2.rectangle()详细理解
|
9月前
|
安全 API 算法框架/工具
大模型文件Docker镜像化部署技术详解
大模型文件Docker镜像化部署技术详解
1378 2
|
开发工具 Android开发
[Android Studio]please select android sdk
[Android Studio]please select android sdk
884 1