CIKM2022 | ChiQA-一个基于20万个真实用户问题的图片问答数据集(2)

简介: CIKM2022 | ChiQA-一个基于20万个真实用户问题的图片问答数据集

数据的推理和分析


在标注完数据之后,我们对 ChiQA 中的数据进行统计和分析。


1)query 常用词分析:


我们用结巴分词对 query 进行切分,并且将 query 中的词按照频率展示在下面的云图上:


可以看到 ChiQA 中最常见的 query 是区别、图解、位置等。这和我们的直觉一样,因为这些词确实是很适合图片来回答的问题。


2)领域分析


我们使用内部的一个领域分类的分类器来对所有的 query 进行分类,最终的结果如下图所示:


可以看到我们的数据包含有很多种领域的数据,并且没有某一种领域的数据是占绝对多数的。这保证了我们的数据分布是均匀的。其次,我们对问题里面的疑问词也进行统计,结果如下图所示:

可以看到 ChiQA 中 what 类和 how to 类问题占了大多数,而其他的一些问题也有相当大的比例。


3)图像分析


除了问题之外,我们也对 ChiQA 中的图像进行了分析。由于图像大部分是语言无关的,因此我们采用了一个在业界公认性能比较优良的目标检测模型 DETR 来挖掘出图像中的实体。DETR 可以将图像中的实体映射到标准 MS-COCO 定义的实体中,如 “人物”、“狗” 等。我们对 ChiQA 中的每个图像挖掘出实体,并将最高频次的实体分布展示在下图中:


可以看到在 ChiQA 中有超过 30 个实体出现了至少 1000 次,这显示出 ChiQA 是一个分布非常均匀并且覆盖了大部分领域的图像数据,其中出现次数最多的实体是 “人物”、“手机”、“汽车” 等。这个和问题的分布类似。

4)推理技能


为了更好地分析数据,我们还对 ChiQA 数据中所需要的推理技能进行了分析。着重分析了 5 中需要推理的技能:


  • Grouding: 需要模型和系统将问题中提到的实体进行理解和定位
  • 阅读:需要模型理解图片中出现的文字部分
  • 对比:需要模型对比一些不同的属性和内容,例如身高、大小等等
  • 因果推理:模型需要深层次理解问题和图片中存在的因果部分(即事物发生的原因或者造成的结果)
  • 逻辑推理:需要模型理解问题或者图片中的一些逻辑比较因素,例如否定、条件等等


我们随机采样了 200 条数 ChiQA 据并且根据上述 5 个标准进行标注,其中某些数据可能需要不止一种推理技能。其结果如下图所示。


可以看到除了 Grouding 之外,超过 80% 的 ChiQA 数据需要深度理解图片中的文字和对比关系。这和之前大部分的 VQA 数据很不一样。其次,有相当多的问题需要逻辑和对比,说明 ChiQA 中的数据具有相当的难度。我们认为对 ChiQA 中推理技能的分析可以帮助我们更好地理解这个数据,并且为后续的模型设计提供一些先验的指导。


实验评估指标


在 ChiQA 数据集中,标注打分有三挡:0,1,2,所以在实验中我们测试模型排序的指标和普通分类的指标。分为三类:


  • NDCG@N:Normalized Discounted Cumulative Gain
  • Mean Average Precision(MAP@N):平均精度 (MAP@N)
  • Accuray / Precision / Recall / F1


基线模型

我们在 ChiQA 数据集上实验了多个常用的模型。仿照之前图片 - 文本匹配的工作,我们先把图片和文本分别用编码器进行编码,然后将它们的表示进行跨模态融合,最后用一个预测层来获取匹配得分。在下面所列模型中,加♣代表模型经过了预训练,加♦则表示没有。


  • Random♦:对测试集中的每条数据,在 0、1、2 中随机选择一个预测分数,random 模型是作为 ChiQA 上的一个基线模型。
  • Majority♦:选择训练集中出现最多的标签作为测试集上所有数据的预测分数。
  • LSTM+ResNet♦:在文本和视觉的大规模预训练模型出现前,LSTM 和 ResNet 分别是文本和视觉领域最常用的模型之一。
  • Bert+ViT♣:我们使用 Bert 模型编码查询文本,使用 ViT 模型编码图片,其中,Bert 和 ViT 模型都是在大规模无监督数据上预训练过的。最后使用 < CLS > 的表示向量进行匹配分数预测。
  • ALBEF♣:ALBEF 是一种大规模的视觉和语言表示学习,已经在各种视觉语言任务上展示出较大的改进。
  • +Pretrain♣:对于中文的跨模态预训练,我们在悟空数据集上对Bert-ViT和ALBEF进行跨膜态预训练,预训练方式和ALBEF类似。悟空数据集是一个包含1亿个图片-文本对的开源跨模态数据。
  • Wenlan♣:Wenlan 是一个大规模的多模态预训练模型,在 3000 万文本-图像对上进行了训练,模型包含近十亿个参数。我们使用他们公开的api服务获取文本和图片的表示向量,并使用两个向量的Cos相似度作为预测的匹配分数。
  • Human:除了上述这些模型,我们还评估了人类在测试集上的预测水平。由于测试集数据较多,我们人工随机抽样了 100 条数据进行预测和评估预测指标。


以下是结果显示:


上述模型在测试集上的指标如图所示。我们可以看到,直接应用之前最先进的跨模态方法的效果很差,指标仅比随机打分模型好一点。这意味着 ChiQA 数据较难,仅使用大规模的弱监督对比学习的模型,如 ALBEF*、Wenlan,可能无法区分视觉问答所需的细粒度信息。此外,这些模型的糟糕表现说明,ChiQA 数据集不同于之前弱监督的图像 - 文本匹配数据,因为弱监督的图像 - 文本匹配侧重于相关性,而 ChiQA 数据同时要求图片的可回答性。

最后,在 ChiQA 上微调的模型在基线上取得了很大的进步,但与人类的表现仍然相差较远,所以模型在 ChiQA 数据集还有很大的提升空间。


ChiQA在产品里的应用


随着互联网的发展,用户对问答的需求更高,需要系统提供更为直观、便捷的答案。特别是最近几年,多媒体内容愈加的丰富,以图片、视频为载体的问答内容越来越多的出现在公众面前。QQ 浏览器实验室立知团队在今年 4 月份率先在业界推出图片问答项目,如用户搜猕猴桃和奇异果的区别,结果会以图片的形式直观的展现在用户面前。如下图所示:


当前这种可以直接由图片满足的问题上线后取得了良好的效果。我们观察到其用户行为(如 CTR、换词率等)相较于传统的结果有着明显的改善,说明当前以图片等为载体的 “新问答” 是一个更能满足用户需求的产品业务。


作者团队介绍


QQ 浏览器搜索技术中心团队是腾讯 PCG 信息平台与服务线负责搜索技术研发的团队,依托腾讯内容生态,通过用户研究驱动产品创新,为用户提供图文、资讯、小说、长短视频、服务等多方位的信息需求满足。在算法方面,以自然语言处理、深度学习、多模态理解与生成、知识计算与应用等技术为基础,建设内容理解、相关性和排序、多模态搜索、智能问答、多语言翻译、搜索推荐等技术方向,探索和应用业界先进技术、打造更优秀的用户搜索体验;在工程方面,建设搜索技术中台工业化系统,打磨高性能、高可用、低成本的百亿级检索系统,为腾讯 PCG 各个内容业务的搜索场景提供基础的搜索引擎服务,当前已支持 QQ 浏览器、腾讯视频、腾讯新闻、腾讯微视等 PCG 多条产品线。

相关文章
|
数据安全/隐私保护 Windows
svn篇1:svn下载安装
svn篇1:svn下载安装
836 0
|
Shell Linux 计算机视觉
【Dlib】动作检测:以常见的人脸识别验证为例讲解张嘴与闭眼
【Dlib】动作检测:以常见的人脸识别验证为例讲解张嘴与闭眼
887 0
|
小程序 JavaScript 前端开发
微信小程序前后端交互与WXS的应用
微信小程序前后端交互与WXS的应用
559 0
|
12天前
|
人工智能 运维 关系型数据库
Moltbot实战:MoltBot+RDS AI助手Skill管理RDS实例
本文介绍如何5分钟快速对接Moltbot与阿里云RDS AI助手,打造专属AI数据库运维管家。通过开源Skill实现自动化诊断、参数调优、索引优化等能力,解放DBA于凌晨救火,让重复运维交给AI,专注高价值架构设计。(239字)
Moltbot实战:MoltBot+RDS AI助手Skill管理RDS实例
|
29天前
|
SQL 数据可视化 Java
Metabase 简介
Metabase 是一款开源数据可视化工具,支持多种数据库,提供直观的查询、仪表板和自动化报告功能。通过 Docker 或 JAR 快速部署,具备权限管理、SSO 集成与缓存优化,适合技术与非技术人员高效分析数据。
|
29天前
|
人工智能 JSON 前端开发
|
2月前
|
机器学习/深度学习 传感器 人工智能
小麦田间叶片病害目标检测数据集(2000 张已标注):面向目标检测的农业智能识别
本数据集包含2000张高分辨率小麦田间叶片图像,涵盖大麦黄矮病、叶锈病、白粉病及健康叶片四类,标注格式适配YOLO系列模型。数据源自无人机巡检与实地采样,覆盖多种气候与地貌环境,适用于农业病害智能识别、无人机巡检、数字农业平台构建及AI科研教学,助力实现小麦病害精准监测与智能化管理。
小麦田间叶片病害目标检测数据集(2000 张已标注):面向目标检测的农业智能识别
|
11月前
|
数据采集 人工智能 文字识别
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集,旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式问答对,支持知识问答、推理任务和创造性任务。
582 10
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
|
4月前
|
机器学习/深度学习 数据采集 自然语言处理
99_监督微调:Alpaca数据集格式与实现
在大语言模型(LLM)的开发和应用中,微调是将通用预训练模型转化为特定任务专家的关键步骤。监督微调(Supervised Fine-Tuning, SFT)作为微调的一种重要范式,通过人工标注的高质量数据集指导模型学习特定任务的输入输出模式,从而显著提升模型在目标任务上的性能。
|
人工智能 文字识别 并行计算
行业实践 | 基于Qwen2-VL实现医疗表单结构化输出
本项目针对不同医院检查报告单样式差异大、手机拍摄质量差等问题,传统OCR识别效果不佳的情况,探索并选定了Qwen2-vl系列视觉语言模型。通过微调和优化,模型在识别准确率上显著提升,能够精准识别并结构化输出报告单信息,支持整张报告单及特定项目的识别。系统采用FastAPI封装接口,Gradio构建展示界面,具备高效、灵活的应用特性。未来该方案可扩展至多种文本识别场景,助力行业数字化转型。
1215 20

热门文章

最新文章