CVPR 2022 | GEN-VLKT:基于预训练知识迁移的HOI检测方法

简介: CVPR 2022 | GEN-VLKT:基于预训练知识迁移的HOI检测方法

1.gif

近日,阿里巴巴大淘宝技术多媒体算法团队与计算机视觉青年学者刘偲教授团队合作论文:《GEN-VLKT: Simplify Association and Enhance Interaction Understanding for HOI Detection》 被CVPR 2022接收。CVPR全称为IEEE国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition)。作为计算机视觉领域最负盛名的顶级学术会议,CVPR每年吸引大量研究机构及高校等参与其中。今年CVPR共收到8161篇有效论文投稿,录用2067篇,录用率为25.33%。本文在业界首次将大规模预训练模型的海量数据中蕴含的丰富信息知识迁移到HOI检测任务,单模型刷新了通用(Regular)和零样本(Zero-Shot)双任务的SOTA指标。


动机

人物交互关系检测(Human-Object Interaction Detection, HOI)存在两个核心问题:人-物关联(human-object association)和关系理解(interaction understanding)。我们分别在这两个核心问题上设计方案,整体如图1所示。
在人-物关联方面,传统两分支(two-branch)方法需要复杂且耗时的后处理,而单分支(single-branch)方法采用的统一特征造成了多任务的相互干扰。我们提出了GEN(Guided-Embedding Network)结构,通过引入位置引导(position Guided Embedding,p-GE)和实体引导(instance Guided Embedding, i-GE),实现了避免后处理的特征解耦的两分支结构。
在关系理解方面,传统方法受数据长尾分布影响严重,也缺乏零样本(Zero-Shot)发现能力。我们设计了VLKT(Visual-Linguistic Knowledge Transfer)训练策略,通过迁移大规模图文数据预训练模型CLIP中蕴含的知识,增强对交互关系的理解,提升零样本理解能力。

图片.pngimage.gif

图 1:整体流程示意图


方法

在人-物关联方面,图2显示了我们设计的GEN结构框架。我们采用基于transformer的HOI检测器来实现我们的设计,并使用了DETR [1]的基础模型结构。在这个结构中,N层解码器把视觉编码器输出的特征和一系列可学习的输入查询query向量作为输入。我们设计了实体解码器和关系解码器并行的两分支结构。

image.gif图片.png

图2:Guided-Embedding Network (GEN)框架图



图片.png
图片.png

这样,实体解码器和关系解码器的解码特征一一匹配,可以在没有后处理条件下预测HOI三元组。


在关系理解方面,如图3所示,我们引入了大规模预训练模型CLIP[2],提出了VLKT训练策略用于增强关系理解。


image.gif图片.png

图3:用于解码器的Visual-Linguistic Knowledge Transfer (VLKT)框架图


图片.png


图片.png

图片.png实验

如表1,我们在HICO-DET数据集[3]上验证了三种参数量的GEN-VLKT,效果超过了全部已知的“从底到上”和“自顶而下”方法,在不使用人体关键点和语言特征等额外特征的情况下,最高指标达到了34.95 mAP。


图片.pngimage.gif

表1:HICO-Det数据集Regular任务实验结果


如表2,GEN-VLKT在V-COCO数据集[4]上同样达到了SOTA效果,Scenario 1的role mAP为63.91,Scenario 2的role mAP为65.89。

图片.png

图片.png表2:V-COCO数据集Regular任务实验结果


如表3,GEN-VLKT在多种设置的Zero-Shot任务上,都取得了大幅领先以往SOTA的结果。得益于VLKT的知识迁移训练策略,我们在类别不可见(Unseen)部分的评估中,获得了较强的零样本发现能力。


image.gif图片.png

表3:HICO-Det数据集Zero-Shot任务实验结果


表4展示了消融实验结果。GEN结构中的p-GE和i-GE提升了人-物关联,进而提升了指标。VLKT中的CLIP文本编码器来分别初始化交互分类器和物体分类器,以及CLIP视觉编码器来知识蒸馏视觉特征,都促进了对关系交互的理解。知识蒸馏在损失函数下获得了最佳性能。


图片.pngimage.gif

表4:消融实验

 

图4显示了GEN-VLKT的可视化特征。特征图显示了human query,object query和interaction query实现了很好的特征解耦,特征分别集中在了人体边缘、物体边缘和人-物动作交互区域。


图片.pngimage.gif

图4:可视化特征图


总结


本文从人-物关联和关系理解两方面优化人-物关系检测HOI任务,提出了GEN-VLKT架构,通过特征引导机制来实现没有后处理的特征解耦的并行两分支结构,通过引入大规模预训练模型CLIP的海量知识迁移来实现对交互关系的增强理解,使得模型具备更好的零样本发现能力。本文以单模型刷新了HOI领域的通用(Regular)和零样本(Zero-Shot)双任务的SOTA指标。相关算法在大淘宝内容理解业务中落地应用,如点淘种草标签、直播类目标签等。


Reference


[1] End-to-end object detection with transformers. In ECCV, 2020.

[2] Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020, 2021.

[3] Learning to detect human-object interactions. In WACV, 2018.

[4] Visual semantic role labeling. arXiv preprint arXiv:1505.04474, 2015.

[5] Mining the benefits of two-stage and one-stage hoi detection. In NIPS, 2021.


团队介绍

大淘宝技术-内容算法–内容理解团队,依托大淘宝数⼗亿级的视频数据,业务上支持淘宝直播、逛逛和点淘等淘系核心业务,团队成员近两年参加CVPR、ICCV等顶会竞赛获得6项冠军,技术累积在计算机视觉顶会期刊如NIPS、CVPR、TPAMI、TIP、MM等发表论文10余篇。

相关文章
|
机器学习/深度学习 数据采集 编解码
深度学习原理篇 第八章:CLIP
简要介绍clip的原理和代码实现。
3696 0
|
算法 数据库 计算机视觉
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
Dataset之COCO数据集:COCO数据集的简介、下载、使用方法之详细攻略
|
机器学习/深度学习 算法 数据挖掘
即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)(一)
即插即用 | 通过自适应聚类Transformer来提升DERT目标检测器的速度(文末附论文下载)(一)
1405 0
|
虚拟化
解决ESXI不支持USB移动硬盘
解决方式: 采用PCI设备直通方式分配给虚拟子机使用。前提: ESXI主机需支持PCI设备直通功能。(亲测技嘉H61、H81不支持如下图示)在技嘉H110和B250亲测成功 实验环境 主机:技嘉B250M主板系统:ESXI 6.0U3PCI转USB卡: IT-CEO PCI-E转USB3.0双口扩展卡 操作过程 使用vSphere Client连接到ESXi主机,在"配置→高级设置→编辑直通",在"将设备标记为可直通"对话框中,勾取插入的PCI转USB设备。
17209 0
|
10月前
|
机器学习/深度学习 算法 计算机视觉
《LSTM:视频目标跟踪中时间序列信息的高效利用者》
在视频目标跟踪中,充分利用时间序列信息以提高精度至关重要。长短期记忆网络(LSTM)凭借其独特的门控机制(遗忘门、输入门和输出门)及细胞状态,在处理时间序列数据方面表现出色。遗忘门可丢弃无关信息,输入门整合新特征,输出门筛选关键信息,有效应对目标动态变化与复杂背景干扰。结合目标检测算法如YOLO,LSTM能准确预测目标位置,实现连续稳定的跟踪。
377 14
|
10月前
|
机器学习/深度学习 数据可视化 算法
RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
RT-DETR改进目录一览 | 涉及卷积层、轻量化、注意力、损失函数、Backbone、SPPF、Neck、检测头等全方位改进
706 5
|
并行计算 异构计算
卸载原有的cuda,更新cuda
本文提供了一个更新CUDA版本的详细指南,包括如何查看当前CUDA版本、检查可安装的CUDA版本、卸载旧版本CUDA以及安装新版本的CUDA。
11947 3
卸载原有的cuda,更新cuda
|
存储 人工智能 Serverless
搭建文生图AI系统
随着人工智能的发展,**文本生成图像(文生图)**技术在广告创意、视觉设计、内容营销等领域应用广泛。阿里云通义千问作为先进的大语言模型,不仅具备强大的文本理解能力,还能与图像生成技术结合,实现根据文本描述自动生成高质量图像。 本博客将展示如何使用通义千问与阿里云的其他产品(如函数计算、API 网关、对象存储 OSS)搭建一个简单的文生图系统,实现用户输入文本并生成相应图像的功能。
758 6
|
关系型数据库 MySQL Linux
Linux 安装 mysql 【使用 tar.gz | tar.xz安装包-离线安装】
在Linux系统中使用tar.xz压缩包安装MySQL数据库的详细步骤。包括下载MySQL压缩包,解压到指定目录,创建mysql用户和组,设置目录权限,初始化MySQL,配置my.cnf文件,启动服务,以及修改root用户密码。此外,还提供了如何设置Windows远程登录MySQL服务器的方法。
Linux 安装 mysql 【使用 tar.gz | tar.xz安装包-离线安装】
|
机器学习/深度学习 传感器 计算机视觉
MotionBert论文解读及详细复现教程
MotionBert提出了一个统一视角来学习人体运动表示,并使用双流时空Transformer(DSTformer)网络作为运动编码器,能够全面、自适应地捕获骨骼关节之间的远程时空关系,实现在多个下游任务上的性能提升。
750 2
MotionBert论文解读及详细复现教程