CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务(2)

简介: CVPR 2022 Oral | 视频文本预训练新SOTA!港大、腾讯ARC Lab推出基于多项选择题的借口任务

4. 预训练流程
如下图所示,该研究预训练流程包含三个部分,来分别优化三个统一的对比学习(contrastive learning)形式的预训练目标:
1. 拉近视频和文本正样本对特征间的距离,并拉远负样本对特征间的距离(一个视频和它对应的文本描述被视为正样本对,否则就是负样本对)。2. 训练 BridgeFormer 回答名词问题,也就是拉近 BridgeFormer 输出的名词回答特征和 TextFormer 输出的正确答案的名词特征间的距离,并拉远名词回答特征和其他名词特征间的距离。3. 训练 BridgeFormer 回答动词问题,也就是拉近 BridgeFormer 输出的动词回答特征和 TextFormer 输出的正确答案的动词特征间的距离,并拉远动词回答特征和其他动词特征间的距离。


这里该研究使用对比学习来优化多项选择题形式的预训练目标,而不是采用传统的“masked word prediction”,也就是随机 mask 一句话里的一些单词,训练模型预测出被 mask 的单词。采用本文的这种做法有如下三个优势:

传统的 “masked word prediction” 约束模型预测出被 mask 的单词,会使得模型专注于解码 low-level 的单词本身,破坏了对模态间 high-level 的特征表达的学习。相比之下,该研究的 MCQ 以对比学习的形式拉近 BridgeFormer 输出的回答特征和 TextFormer 输出的答案特征间的距离,从而使模型专注于学习模态间 high-level 的语义信息。

该研究抹除文本里包含明确语义信息的动词和名词短语来构造有意义的问题,而传统的方法只是随机 mask 一些可能没有任何语义信息的单词。

由于问题的特征和答案的特征都是由 TextFormer 得到,这一做法可以视为对文本的 data augmentation,从而增强 TextFormer 对自然语言的语义理解能力。


消融实验也显示,相比于传统的“masked word prediction”,该研究的对比学习形式的借口任务 MCQ 在下游测评取得了更好的实验结果。


5. 模型结构
如下图所示,该研究的模型包含一个视频编码器 VideoFormer,一个文本编码器 TextFormer,和一个辅助的编码器 BridgeFormer。每一个编码器由一系列 transformer 模块构成。TextFormer 输出的每一层问题文本特征被视为 query,VideoFormer 输出的每一层视频特征被视为 key 和 value,被送入 BridgeFormer 相应层来执行跨模态的注意力机制,以获得回答特征。


6. 可视化
6.1 BridgeFormer 如何回答名词问题
下图为可视化名词问题特征和视频特征之间的注意力。在第二列和第五列,文本里蓝色的名词短语被抹除,构成了名词问题 Q1。在第三列和第六列,文本里绿色的名词短语被抹除,构成了名词问题 Q2。在第一个例子里,当 “一对老年夫妻” 被抹去,构成问题 “谁在喝咖啡”,BridgeFormer 专注于描绘人物面貌的视频特征上。而当“一盘面包” 被抹去,构成问题 “在他们面前的桌子上有什么”,BridgeFormer 把注意力集中在桌子上的物体区域。在第四个例子里,当“足球” 被抹去,构成问题 “家长和小孩在玩什么”,BridgeFormer 专注于可以和动词“玩” 构成关联的物体特征上。而当 “乡间草地” 被抹去,构成问题“家长和小孩在哪里踢足球”,BridgeFormer 把注意力放在了视频背景特征上。我们可以观察到,BridgeFormer 关注具有特定物体信息的视频区域来回答名词问题,这表明了 VideoFormer 可以从视频中提取准确的空间内容,并且 TextFormer 可以理解问题的文本语义。


6.2 BridgeFormer 如何回答动词问题
下图为可视化动词问题特征和视频特征之间的注意力。下图依次展示了一个视频里采样得到的三帧。文本里蓝色的动词短语被抹除,构成了动词问题。在左边的例子里,当 “切” 这个动词被抹去,构成问题 “一双手正在如何操作比萨饼”,BridgeFormer 关注比萨饼上餐具的移动。在右边的例子里,当“喝” 这个动词被抹去,构成问题“站在河边的男人正在怎么操作热茶”,BridgeFormer 关注握着杯子的手的移动。我们可以观察到,BridgeFormer 集中注意力在物体的移动上来回答动词问题,这表明 VideoFormer 捕获到了视频的时序动态。


7. 实验
7.1 预训练数据
该研究在图像数据集 Google Conceptual Captions 和视频数据集 WebVid-2M 上进行预训练,前者包含 3.3M 的图像 - 文本对,后者包含 2.5M 的视频 - 文本对。考虑到计算量,该研究没有使用大规模的 HowTo100M 数据集进行预训练。不过,该研究用 HowTo100M 来进行大规模的文本到视频的 zero-shot 检索测评。
7.2 下游任务
文本到视频的检索
该研究在 MSR-VTT、MSVD、LSMDC、DiDeMo 和 HowTo100M 上进行测评。采用两种测评准则,包括 zero-shot 和 fine-tune。
动作识别
该研究在 HMDB51 和 UCF101 上进行测评。采用三种测评准则,包括 linear、fine-tune 和 zero-shot。其中 zero-shot 的动作识别可以被视为是视频到文本的检索,其中动作类别的名称被视为是文本描述。
7.3 实验结果
在 MSR-VTT 数据集上,文本到视频的检索结果如下表格所示。表格上面的行显示了 zero-shot 测评结果,下面的行显示了 fine-tune 的测评结果。可以看到本文方法相比于之前的方法,在两种测评基准下都有了大幅度的提升。该研究所用模型直接以原始视频帧作为输入,不依赖任何预先提取的视频特征。


在 MSVD、LSMDC、DiDeMo 上,文本到视频的检索结果如下表格所示。本文模型同样在 zero-shot 和 fine-tune 的测评基准下,都取得了最好的结果。


该研究进一步使用 CLIP 的权重来初始化本文模型,在 MSR-VTT、MSVD 和 LSMDC 上,文本到视频的检索结果如下表格所示。该研究的借口任务 MCQ 同样可以提升基于 CLIP 的视频文本预训练的性能。


在 HMDB51 和 UCF101 上测评 zero-shot 动作识别结果如下图(a)所示,本文方法明显超出了 baseline。该研究进一步通过测评 linear 动作识别来衡量模型的单模态视频表征能力。如下图(b)所示,本文方法在时长相对较短的视频数据上进行预训练,取得了理想的结果。这显示了该研究的借口任务 MCQ 可以通过对文本语义的有效利用,增强视频的表征学习。


更多的实验结果和消融实验,参见论文。
8. 总结
本文提出了一个全新的借口任务用于视频文本预训练,叫做多项选择题(MCQ)。这一借口任务加强了局部视频和文本特征的细粒度的关联,并且实现了高效的下游检索。一个参数化模块 BridgeFormer 被训练通过借助视频特征,回答由文本特征构成的选择题,并且在下游任务时可以被移除。本文模型在文本到视频检索和零样本动作识别多个测评基准的结果,显示了 MCQ 这一借口任务的有效性。

相关文章
|
人工智能 自然语言处理 文字识别
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
【4月更文挑战第3天】DeepMind推出了SIMA,一种能在多个3D环境中执行语言指令的智能体,标志着AI在理解和互动虚拟世界上的进步。SIMA通过多样化的训练数据学习导航、操作、决策等技能,并结合预训练模型处理高维度输入输出。尽管在复杂任务上仍有提升空间,SIMA展现了正向迁移能力和潜力,为AI研究和未来机器人技术铺平道路。然而,仍需解决鲁棒性、可控性、评估方法及道德安全问题。
501 4
DeepMind首发游戏AI智能体SIMA:开启虚拟世界的智能探索之旅
|
机器学习/深度学习 人工智能 达摩院
[ICML'22] 阿里巴巴达摩院FEDformer,长程时序预测全面超越SOTA
本文介绍阿里巴巴达摩院决策智能实验室时间序列预测方向的最新(ICML 2022 accepted)工作:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting论文链接:https://arxiv.org/abs/2201.12740代码链接:https://github.com/DA
3362 0
[ICML'22] 阿里巴巴达摩院FEDformer,长程时序预测全面超越SOTA
|
缓存 NoSQL Java
Redis深度解析:解锁高性能缓存的终极武器,让你的应用飞起来
【8月更文挑战第29天】本文从基本概念入手,通过实战示例、原理解析和高级使用技巧,全面讲解Redis这一高性能键值对数据库。Redis基于内存存储,支持多种数据结构,如字符串、列表和哈希表等,常用于数据库、缓存及消息队列。文中详细介绍了如何在Spring Boot项目中集成Redis,并展示了其工作原理、缓存实现方法及高级特性,如事务、发布/订阅、Lua脚本和集群等,帮助读者从入门到精通Redis,大幅提升应用性能与可扩展性。
270 0
|
数据采集 存储 数据处理
数据治理:如何制定数据标准与规范
在当今这个数据驱动的时代,数据已成为企业最宝贵的资产之一。然而,随着数据量的爆炸性增长和数据来源的多样化,如何有效地管理和利用这些数据成为了企业面临的重大挑战。数据治理作为确保数据质量、安全性、合规性和可访问性的关键过程,其核心在于制定并执行一套科学、合理的数据标准与规范。本文将探讨如何制定数据标准与规范,以推动企业的数据治理实践。
2079 3
|
关系型数据库 MySQL Serverless
PolarDB MySQL Serverless:灵活弹性场景深度评测
本文深入评测了阿里云PolarDB MySQL Serverless的灵活弹性场景。作为阿里云专业运维工程师,笔者从多个角度对产品进行了全面分析: 产品特性:介绍了PolarDB MySQL Serverless的核心优势,包括动态弹性、高可用性和按量付费模式。 操作体验:详细描述了集群创建过程和控制台监控功能,突出了其简化运维的特点。 弹性能力:通过三个测试场景验证了产品在不同负载下的自动扩缩容能力,展示了其快速响应和性能稳定性。 API与文档:评估了API的易用性和文档的完整性,并提出了改进建议。 优劣分析:总结了产品的主要优势,如极致弹性和成本效益,同时指出了一些潜在的改进空间。 整体
|
存储 弹性计算 云计算
深入理解云计算:探索IaaS、PaaS和SaaS服务模型
云计算作为当代信息技术领域的关键驱动力,通过提供弹性计算资源和灵活的服务模型,极大地改变了企业和个人的计算方式。本文深入探讨了云计算的基础概念,着重介绍了三种主要的云计算服务模型:IaaS、PaaS和SaaS。
1633 0
|
9月前
|
数据采集 API 开发工具
从 0 到 1 掌握鸿蒙 AudioRenderer 音频渲染:我的自学笔记与踩坑实录(API 14)
本文详细介绍了在 HarmonyOS 中使用 AudioRenderer 开发音频播放功能的完整流程。从环境准备(SDK 5.0.3、DevEco Studio 5.0.7)到核心概念(状态机模型、异步回调),再到开发步骤(实例创建、数据回调、状态控制),结合代码示例与常见问题解决方法,帮助开发者掌握 AudioRenderer 的底层控制与定制化能力。同时,文章还提供了性能优化建议(多线程处理、缓冲管理)及学习路径,附带官方文档和示例代码资源,助你快速上手并避开常见坑点。
367 7
|
11月前
|
关系型数据库 Linux 定位技术
PostGIS2.4服务器编译安装
通过上述步骤,你可以成功编译和安装PostGIS 2.4,并在PostgreSQL数据库中启用PostGIS扩展。确保在配置过程中仔细检查每一步,以避免出现配置错误。PostGIS的安装使得PostgreSQL能够处理复杂的地理空间数据,极大地扩展了数据库的功能。
370 19
|
人工智能 自然语言处理 搜索推荐
浪潮信息 Yuan-embedding-1.0 模型登顶MTEB榜单第一名
浪潮信息Yuan-Embedding-1.0模型在C-MTEB评测基准中荣获Retrieval任务第一名,推动中文语义向量技术发展
1970 7
浪潮信息 Yuan-embedding-1.0 模型登顶MTEB榜单第一名
|
存储 测试技术 计算机视觉
开源视频版GPT-4o?快速记忆,实时问答,拿下CVPR'24长视频问答竞赛冠军
【7月更文挑战第24天】Flash-VStream, 一款模拟人脑记忆的视频语言模型,实现实时长视频流理解和问答,夺得CVPR'24竞赛桂冠。它采用动态记忆技术,高效存储检索信息,大幅降低推理延迟与显存消耗,超越现有模型。虽有资源限制及复杂查询处理难题,仍展现卓越通用性及先进性能。[详细论文](https://arxiv.org/abs/2406.08085)。
343 17