达摩院OpenVI-视频目标跟踪 ProContEXT

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 达摩院OpenVI-视频目标跟踪 ProContEXT


进泽 魔搭ModelScope社区

进泽 魔搭ModelScope社区

1论文&代码

论文链接

https://arxiv.org/pdf/2210.15511.pdf

开源代码

https://github.com/jp-lan/ProContEXT

开源应用

https://modelscope.cn/models/damo/cv_vitb_video-single-object-tracking_procontext/summary

2背景介绍

视频目标跟踪(Video Object Tracking, VOT)任务以一段视频和第一帧中待跟踪目标的位置信息(矩形框)作为输入,在后续视频帧中预测该跟踪目标的精确位置。该任务对跟踪目标的类别没有限制,目的在于跟踪感兴趣的目标实例。该算法在学术界和工业界都是非常重要的一个研究课题,在自动驾驶、人机交互、视频监控领域都有广泛应用。

由于输入视频的多样性,目标跟踪算法需要适应诸如尺度变化、形状变化、光照变化、遮挡等诸多挑战。特别是在待跟踪目标外观变化剧烈、周围存在相似物体干扰的情况下,跟踪算法的精度往往急剧下降,甚至出现跟踪失败的情况。

如图1所示,对于一个输入视频,待跟踪跟踪物体(红色虚线圆)会随着时间而产生剧烈变化,相比于初始帧中的目标外观,待跟踪帧中的目标外观会与中间帧的目标外观更相似,因此中间帧的目标外观形态是一个非常好的时域上下文信息。另外,对于跟踪过程中目标物体周围的空域上下文信息对算法鉴别相似物体和干扰背景有很大的帮助。

图1 上下文信息在跟踪过程中发挥着重要作用

3方法介绍

最近,一些基于Transformer网络的视频目标跟踪算法,比如OSTrack[1], MixFormer[2], STARK[3]等,展现了较高的算法精度,基于之前的研究工作,本文提出了ProContEXT(ProgressiveContextEncodingTransformerTracker),把时域上下文信息和空域上下文信息共同引入到Transformer网络中。

ProContEXT的整体结构如图2所示,该方法具有如下的特点:

图2 ProContEXT的整体结构

ProContEXT是一种渐进式上下文感知的Transformer跟踪器,在Transfomer跟踪器中利用了动态的时域信息和多样的空域信息进行特征提取,从而能获得更加鲁邦的跟踪特征。

ProContEXT通过改进ViT主干网络,在输入中增加了多尺度静态模板(static templates)和多尺度动态模板(dynamic templates),并通过上下文感知的自注意力机制模块充分利用视频跟踪过程中目标的时域上下文和空域上下文信息。通过渐进式的模板优化和更新机制,跟踪器能快速适应目标的外观变化。

ProContEXT在多个公开数据集中(TrackingNet和GOT-10k)获得SOTA性能,并且运行效率完全达到实时要求,速度为54.3FPS.

4实验结果

本文基于TrackingNet和GOT-10k数据集进行算法实验,完全遵守各数据集的使用准则。

SOTA对比

首先,与目前SOTA方法的对比如下表所示,ProContEXT在TrackingNet数据集和在GOT-10K数据集均超过对比的算法,达到SOTA精度。

表1 与SOTA对比

消融实验

本文对静态模板数目进行了消融实验,结果如下表所示,当使用2个静态模板时,效果最佳。表中实验数据说明当使用更多静态模板数目时,会引入冗余信息,导致跟踪效果下降。

表2 静态模板数目消融实验

另外,对动态模板的数目和尺度也进行了消融实验,结果如下表所示,当加入动态模板时,跟踪算法精度均有提升,并且使用两个尺度的动态模板比只使用单个尺度算法精度有进一步提升。

表3 动态模板消融实验

最后,对于算法中使用到的令牌修剪模块中的超参也进行了探索,实验结果如下表所示,当参数为0.7时达到算法精度和效率的最加平衡。

表4 令牌修剪模块消融实验

5模型传送门

视频跟踪模型

视频单目标跟踪ProContEXT:https://modelscope.cn/models/damo/cv_vitb_video-single-object-tracking_procontext/summary

视频单目标跟踪OSTrack:https://modelscope.cn/models/damo/cv_vitb_video-single-object-tracking_ostrack/summary

视频多目标跟踪FairMOT:https://modelscope.cn/models/damo/cv_yolov5_video-multi-object-tracking_fairmot/summary

检测相关模型

实时目标检测模型YOLOX:https://modelscope.cn/models/damo/cv_cspnet_image-object-detection_yolox/summary

高精度目标检测模型DINO:https://modelscope.cn/models/damo/cv_swinl_image-object-detection_dino/summary

实时目标检测模型DAMO-YOLO:https://modelscope.cn/models/damo/cv_tinynas_object-detection_damoyolo/summary

垂直行业目标检测模型:https://modelscope.cn/models?page=1&tasks=vision-detection-tracking%3Adomain-specific-object-detection&type=cv

关键点相关模型

2D人体关键点检测模型-HRNet:

https://modelscope.cn/models/damo/cv_hrnetv2w32_body-2d-keypoints_image/summary

2D人脸关键点检测模型-MobileNet:https://modelscope.cn/models/damo/cv_mobilenet_face-2d-keypoints_alignment/summary

2D手部关键点检测模型-HRNet:https://modelscope.cn/models/damo/cv_hrnetw18_hand-pose-keypoints_coco-wholebody/summary

3D人体关键点检测模型-HDFormer:https://modelscope.cn/models/damo/cv_hdformer_body-3d-keypoints_video/summary

3D人体关键点检测模型-TPNet:https://modelscope.cn/models/damo/cv_canonical_body-3d-keypoints_video/summary

更多模型可访问魔搭站内搜索

检测套件开发工具

ModelScope社区视觉检测开发套件https://github.com/modelscope/AdaDet

6参考文献

[1] Ye B, Chang H, Ma B, et al., "Joint feature learning and relation modeling for tracking: A one-stream framework", in ECCV 2022, pp. 341-357.

[2] Cui Y, Jiang C, Wang L, et al., "Mixformer: End-to-end tracking with iterative mixed attention", in CVPR 2022, pp. 13608-13618.[3] Yan B, Peng H, Fu J, et al., "Learning spatio-temporal transformer for visual tracking", in ICCV 2021, pp. 10448-10457.

相关文章
|
8月前
|
机器学习/深度学习 编解码 人工智能
麻省理工AI新研究可将马赛克变视频
【2月更文挑战第30天】麻省理工学院等机构的研究团队推出AI新技术FeatUp,可将低分辨率图像提升为高清视频,该技术在2024年ICLR会议上引起关注。FeatUp基于深度特征提取,通过多视角一致性损失恢复空间信息,提高视频清晰度。模型通用性强,适用于多种任务和现有应用。实验显示,它在图像超分辨率和端到端学习模型性能提升上超越其他方法。然而,尚存在对某些内容处理不完善和计算资源需求高的局限性。
125 2
麻省理工AI新研究可将马赛克变视频
|
机器学习/深度学习 人工智能 达摩院
[ICML'22] 阿里巴巴达摩院FEDformer,长程时序预测全面超越SOTA
本文介绍阿里巴巴达摩院决策智能实验室时间序列预测方向的最新(ICML 2022 accepted)工作:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting论文链接:https://arxiv.org/abs/2201.12740代码链接:https://github.com/DA
2706 0
[ICML'22] 阿里巴巴达摩院FEDformer,长程时序预测全面超越SOTA
|
2月前
|
人工智能 编解码 测试技术
HART:麻省理工学院推出的自回归视觉生成模型
HART(Hybrid Autoregressive Transformer)是麻省理工学院推出的自回归视觉生成模型,能够直接生成1024×1024像素的高分辨率图像,质量媲美扩散模型。HART基于混合Tokenizer技术,显著提升了图像生成质量和计算效率,适用于数字艺术创作、游戏开发、电影和视频制作等多个领域。
48 1
|
2月前
|
自动驾驶 计算机视觉
单目三维检测实时泛化,纯视觉自动驾驶鲁棒感知方法入选ECCV 2024
【10月更文挑战第25天】单目三维物体检测在自动驾驶领域具有重要应用价值,但训练数据和测试数据的分布差异会影响模型性能。为此,研究人员提出了一种名为“单目测试时适应”(MonoTTA)的方法,通过可靠性驱动的适应和噪声防护适应两个策略,有效处理测试时的数据分布变化,提高模型在未知数据上的泛化能力。实验结果表明,MonoTTA方法在KITTI和nuScenes数据集上显著提升了性能。
31 2
|
3月前
|
机器学习/深度学习 传感器 编解码
深度学习之地球观测中的目标检测
基于深度学习的地球观测中的目标检测是将深度学习技术应用于遥感数据中以自动识别和定位目标物体的过程。这一技术迅速成为遥感领域的研究热点,主要原因在于地球观测(Earth Observation, EO)平台和遥感技术的进步带来了海量的高分辨率数据,而深度学习技术在目标检测、图像识别等任务上的显著成功为其提供了强有力的支持。
40 0
|
4月前
|
人工智能 开发工具 计算机视觉
AI计算机视觉笔记十:结印动作识别
该项目基于恩培大佬的《火影结印识别》小项目,使用yolov5实现手势识别功能。项目包含数据集准备、模型训练和代码实现,可在无GPU环境下运行。代码利用状态机检测手势序列,完成特定结印后触发音效播放。[GitHub地址](https://github.com/enpeizhao/CVprojects)提供了详细步骤和示例代码。
|
5月前
|
机器学习/深度学习 人工智能 监控
探索视觉AI:超越计算机视觉的边界
【8月更文挑战第20天】
78 2
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
卷积神经网络(CNN):视觉识别的革命先锋
卷积神经网络(CNN)作为人工智能领域的一颗璀璨明珠,在计算机视觉中发挥着核心作用。CNN的发展历程展现了从生物学灵感到技术创新的转变,历经LeNet-5至AlexNet、VGGNet、ResNet等里程碑式的进步。其独特结构包括卷积层、池化层及全连接层,能够层层递进地提取特征并作出决策。CNN不仅在图像分类、目标检测等领域表现卓越,还在人脸识别、医学影像分析等方面展现出巨大潜力。尽管存在局限性,如对序列数据处理能力有限及解释性问题,但通过引入注意力机制、自监督学习等方法,CNN将持续演进,引领人工智能技术走向更加精彩的未来。
389 2
|
6月前
|
机器学习/深度学习 人工智能 固态存储
深度学习在计算机视觉中的应用:重塑视觉感知的未来
【7月更文挑战第1天】深度学习重塑计算机视觉未来:本文探讨了深度学习如何革新CV领域,核心涉及CNN、RNN和自注意力机制。应用包括目标检测(YOLO、SSD等)、图像分类(VGG、ResNet等)、人脸识别及医学影像分析。未来趋势包括多模态融合、语义理解、强化学习和模型可解释性,推动CV向更高智能和可靠性发展。
|
人工智能 达摩院 算法
AI顶会论文解读 | 达摩院榜首人脸检测模型MogFace
AI顶会论文解读 | 达摩院榜首人脸检测模型MogFace

热门文章

最新文章