基于跨模态元迁移,美图&大连理工的参考视频目标分割方法只需单阶段

简介: 基于跨模态元迁移,美图&大连理工的参考视频目标分割方法只需单阶段
本文中,来自美图影像研究院(MT Lab)与大连理工大学卢湖川团队的研究者们共同探究了如何仅使用文本描述作为参考的视频目标分割任务,突破性地提出了首个单阶段方法 ——YOFO,能够有效地进行端到端训练并达到 SOTA 效果。该论文已被 AAAI 2022 接收。


引言

参考视频目标分割(Referring VOS, RVOS)是一个新兴起的任务,它旨在根据参考文本,从一段视频序列中分割出文本所指述的对象。与半监督视频目标分割相比,RVOS 只依赖抽象的语言描述而不是像素级的参考掩膜,为人机交互提供了一种更方便的选择,因此受到了广泛关注。


论文链接:https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf

该研究的主要目的是为解决现有 RVOS 任务中所面临的两大挑战:

如何将文本信息、图片信息进行跨模态融合,从而既保持两种模态间的尺度一致性,又能充分地将文本所提供的有用特征参考充分融入到图片特征中;

如何抛弃现有方法的二阶段策略(即先在图片级别逐帧得到粗略的结果,再利用该结果作为参考,经过增强时序信息的结构细化得到最终预测),将整个 RVOS 任务统一进单阶段的框架中。


对此,该研究提出了一种跨模态元迁移的端到端 RVOS 框架 ——YOFO,其主要的贡献和创新点为:

只需单阶段推理,即可实现利用参考文本信息直接得到视频目标的分割结果,在两个主流的数据集 ——Ref-DAVIS2017 和 Ref-Youtube-VOS 上获得的效果超越了目前所有二阶段方法;

提出了一个元迁移(Meta-Transfer)模块来增强时序信息,从而实现了更聚焦于目标的特征学习;

提出了一个多尺度跨模态特征挖掘(Multi-Scale Cross-Modal Feature Mining)模块,能够充分融合语言、图片中的有用特征。


实现策略

YOFO 框架主要流程如下:输入图片和文本先分别经过图片编码器和语言编码器提取特征,随后在多尺度跨模态特征挖掘模块进行融合。融合后的双模态特征在包含了记忆库的元迁移模块中进行简化,排除掉语言特征中的冗余信息,同时能保存时序信息来增强时间相关性,最后通过一个解码器得到分割结果。

图 1:YOFO 框架主要流程。

多尺度跨模态特征挖掘模块:该模块通过逐级融合不同尺度的两个模态特征,能够保持图像特征所传达的尺度信息与语言特征间的一致性,更重要的是保证了语言信息不会在融合过程中被多尺度图像信息所淡化淹没。

图 2:多尺度跨模态特征挖掘模块。

元迁移模块:采用了一种 learning-to-learn 策略,过程可以简单地描述为以下的映射函数。其中迁移函数是一个卷积,则是它的卷积核参数:




优化的过程可以表达为以下目标函数:



其中,M 代表能够储存历史信息的记忆库,W 代表不同位置的权重,能够对特征中不同的位置赋予不同的关注度,Y 代表储存在记忆库中的每个视频帧的双模态特征。该优化过程尽可能地使元迁移函数具有重构双模态特征的能力,同时也使得整个框架能够进行端到端的训练。

训练和测试:训练时所使用的损失函数是 lovasz loss,训练集为两个视频数据集 Ref-DAVIS2017、Ref-Youtube-VOS,并通过静态数据集 Ref-COCO 进行随机仿射变换模拟视频数据作为辅助训练。元迁移的过程在训练和预测时都要进行,整个网络在 1080ti 上的运行速度达到了 10FPS。

实验结果

研究采用的方法在两个主流 RVOS 数据集(Ref-DAVIS2017 和 Ref-Youtube-VOS)上均取得了优异的效果,量化指标及部分可视化效果图如下: 

图 3:在两个主流数据集上的量化指标。

图 4:在 VOS 数据集上的可视化效果。

图 5:YOFO 的其他可视化效果展示。

研究还通过一系列的消融实验以说明特征挖掘模块(FM)以及元迁移模块(MT)的有效性。

图 6:特征挖掘模块(FM)以及元迁移模块(MT)的有效性。

此外,研究分别对使用了 MT 模块和不使用 MT 模块的解码器输出特征进行了可视化,可以明显地看出 MT 模块能够正确地捕捉到语言所描述的内容且对干扰噪声进行过滤。

图 7:使用 MT 模块前后的解码器输出特征对比。

相关文章
|
运维 供应链 监控
奶茶上云,原生的更好喝
奶茶上云,原生的更好喝
430 1
|
存储 Prometheus Cloud Native
Thanos 工作原理及组件简介
Thanos 工作原理及组件简介
|
自然语言处理 测试技术 开发者
通义灵码全面评测:以PyCharm为例,展示智能编码助手的强大功能
《通义灵码全面评测:以PyCharm为例,展示智能编码助手的强大功能》
|
9月前
|
存储 弹性计算 Cloud Native
云原生成本精细化管理实践:企迈科技的成本中心建设之路
企迈实施成本中心建设的项目核心目标不仅是实现云资源的优化配置,还要为管理层提供清晰、实时的成本数据分析,帮助管理层做出更加精准的决策。通过精细化的云成本管控,逐步实现成本降低、资源合理分配和更加高效的云产品使用。
云原生成本精细化管理实践:企迈科技的成本中心建设之路
|
存储 人工智能 前端开发
AI 网关零代码解决 AI 幻觉问题
本文主要介绍了 AI Agent 的背景,概念,探讨了 AI Agent 网关插件的使用方法,效果以及实现原理。
19220 123
|
人工智能 自然语言处理 搜索推荐
如何10分钟获得一位24小时AI专家助手?
进入百炼控制台创建应用,选通义千问-Plus为模型,可设定Prompt引导对话。测试后若发现不足,可进一步优化。获取API-KEY和应用ID以便API调用,实现网页集成。此AI助手能即时解答用户问题,提供个性化服务及推荐,有效提升用户体验与企业效率,同时降低成本并助力策略规划。随着AI技术进步,这类智能助手将成为日常生活的重要组成部分。
|
数据可视化 算法 数据挖掘
Python量化投资实践:基于蒙特卡洛模拟的投资组合风险建模与分析
蒙特卡洛模拟是一种利用重复随机抽样解决确定性问题的计算方法,广泛应用于金融领域的不确定性建模和风险评估。本文介绍如何使用Python和EODHD API获取历史交易数据,通过模拟生成未来价格路径,分析投资风险与收益,包括VaR和CVaR计算,以辅助投资者制定合理决策。
698 15
|
开发框架 前端开发 JavaScript
React、Vue.js 和 Angular主流前端框架和选择指南
在当今的前端开发领域,选择合适的框架对于项目的成功至关重要。本文将介绍几个主流的前端框架——React、Vue.js 和 Angular,探讨它们各自的特点、开发场景、优缺点,并提供选择框架的建议。
383 6
|
人工智能 运维 Cloud Native
把汉堡王搬上阿里云
把汉堡王搬上阿里云
433 9
|
运维 监控 Cloud Native
茶百道全链路可观测实战
茶百道全链路可观测实战
2119 101