多目标跟踪突破:上交大&中兴 MOT Challenge 测评获第一

简介:

多目标跟踪是视频分析及监控领域中的基本问题之一,在视频目标分析、场景剖析、行为事件理解、交通管理及安全防控等应用中,多目标跟踪都是必须解决的关键课题。与单目标跟踪仅针对指定的单个目标框进行跟踪不同,多目标跟踪致力于对视频中的所有感兴趣目标进行自动提取,并通过时域关联,得到其运动轨迹信息。因此,多目标跟踪更适合处理包含大量目标的复杂场景。


图1:多目标跟踪致力于对视频中的所有感兴趣目标进行自动提取,并通过时域关联,得到其运动轨迹信息,因此更适合处理含有大量目标的复杂场景

   

然而,由于多目标在场景中的运动往往存在大量的相互遮挡与交互,给目标提取及关联带来了大量的干扰,因此多目标跟踪仍然面临巨大的困难和挑战。现有的研究大多只专注于改进多目标跟踪过程中的某一环节,缺少对多个环节的联合建模,因此,跟踪效果仍然有较大的局限性。此外,现有的大多数多目标跟踪方法复杂性较高,难以实现有效的实时处理。


近日,上海交通大学林巍峣副教授团队和中兴通讯的合作工作在多目标跟踪领域取得突破,在保证实时处理的情况下,大幅提升了跟踪效果,并在 MOT Challenge 测评中取得第一。


MOT Challenge 是国际多目标跟踪领域最权威的测评平台,由阿德莱德大学、苏黎世联邦理工学院以及达姆施塔特工业大学联合创办,旨在评测多行人对象在复杂场景下进行同时检测及跟踪的算法性能,迄今为止参加测评的机构多达 60 多支,包括海康威视、商汤科技、NEC 北美研究院、斯坦福大学、马克斯普朗克研究所、纽约州立大学、苏黎世联邦理工学院、悉尼大学、伦敦玛丽皇后大学等世界知名高校和研究所。


图2:上海交通大学和中兴通讯合作团队获得 MOT 16 Challenge 测评第一名。

   

MOT Challenge 主要包含 MOT 15, MOT 16,MOT 17 三个测评集。其中,MOT 17 主要测评多目标跟踪模块的性能,而 MOT 15 和 16 两个测评集允许对目标检测、特征提取及跟踪等多模块的综合效果进行测评,因此更有实战性和挑战性。本次,上海交通大学和中兴通讯参加的 MOT 16 Challenge 测评,包含 7 段视角、场景、及长度各异的复杂视频,不少视频含有高密集目标及显著遮挡,检测和跟踪的难度非常大。


上海交通大学和中兴通讯的联合研究团队设计出了一种基于超平面匹配的一体化多目标检测与跟踪算法。该方法将多目标跟踪过程中的目标检测、特征提取、关联跟踪等模块有机地融入一个整体的框架进行联合建模,并通过各模块间的信息反馈,有效地去除了跟踪过程中的噪声和干扰。同时,为了进一步有效建模多目标之间的相互关系,该方法进一步引入超平面来建模各个目标局部轨迹片段间的时空关系,并通过超平面匹配实现高精度的多目标跟踪。


与现有多目标跟踪算法普遍运行速度较慢不同,该算法采用了卷积信息共用技术对算法进行加速,仅利用一次卷积操作,就可实现目标检测、特征提取、及超平面构建等多个操作,可以实现实时的检测与跟踪。联合团队在中兴通讯人工智能平台 uSmartAI 上进行了测试验证,多目标跟踪的处理速度达到 20 帧/秒以上。此外,该方法在 MOT Challenge 上测评的跟踪准确度(Multiple Object Tracking Accuracy)达到了 71.3%,排名第一。

    

本次上海交通大学和中兴通讯联合研究团队在多目标跟踪方法上的突破,对于推动多目标分析的理论研究和实际应用,具有重要的意义。相关技术已用于中兴通讯的部分产品中,相关论文的技术细节,也将在稍后发表。


文章转自新智元公众号,原文链接

相关文章
|
SQL Perl
PL/SQL Developer 注册机+汉化包+用户指南
PL/SQL Developer 注册机+汉化包+用户指南
264 0
|
存储 编解码 Windows
AVI 格式的历史和演变
AVI 格式的主要功能使其成为存储和播放多媒体内容的多功能且实用的选择。 它对多种编解码器、各种分辨率和广泛兼容性的支持使 AVI 格式成为视频爱好者和专业人士的可靠选择。
525 0
|
开发框架 Java Maven
Spring Boot -01- 快速入门篇(详解图文教程)上
Spring Boot -01- 快速入门篇(详解图文教程)
|
Shell 文件存储 Android开发
智能电视安装VLC配合frpc实现播放远程群晖NAS上的电影
智能电视安装VLC配合frpc实现播放远程群晖NAS上的电影
2748 0
|
4月前
|
NoSQL 数据库 Redis
《微服务幂等性踩坑实录:从资损到全链路零故障的7个关键突破》
本文记录了团队因微服务接口缺乏幂等设计,在电商大促中因重复支付回调导致资损后,重构全链路幂等方案的实战经历。团队曾陷入三大误区:迷信“唯一ID+数据库唯一索引”,却因分布式ID重复、数据库锁阻塞在高并发下失效;忽略业务状态流转,导致重复请求触发库存超卖;过度依赖粗粒度分布式锁,因锁过期、误释放引发订单阻塞。最终通过“精准锁Key+锁续期+归属校验”“业务状态白名单+数据库行锁”等方案解决问题,核心结论为:幂等设计不是依赖单一工具,而是技术方案与业务逻辑的深度融合。
239 9
|
11月前
|
人工智能 并行计算 测试技术
Claude 3.7登顶webdev榜首,国内怎么使用Claude 3.7
Claude 3.7 登顶 Webdev 榜首,Claude 3.7 Sonnet 以 1363.7 分的竞技场评分位列榜首,远超第二名。相比前代,它在数学与编码能力上提升显著,尤其在代理编码测试中准确率达 62.3%,工具交互测试中达 81.2% 的 SOTA 表现。支持 128k Token 输入,上下文处理能力提升 16 倍,并引入扩展思考模式,大幅提升复杂任务解决效率。 Claude 3.7 是 Anthropic 推出的新一代 LLM,具备卓越的推理和编程能力。国内用户可参考特定指南注册使用。
1270 14
Claude 3.7登顶webdev榜首,国内怎么使用Claude 3.7
|
存储 C语言 计算机视觉
在C语言中指针数组和数组指针在动态内存分配中的应用
在C语言中,指针数组和数组指针均可用于动态内存分配。指针数组是数组的每个元素都是指针,可用于指向多个动态分配的内存块;数组指针则指向一个数组,可动态分配和管理大型数据结构。两者结合使用,灵活高效地管理内存。
|
Kubernetes Cloud Native API
深入理解Kubernetes——容器编排的王者之道
深入理解Kubernetes——容器编排的王者之道
325 1
|
机器学习/深度学习 人工智能 算法
Python中实现简单神经网络
【9月更文挑战第2天】本文将通过Python编程语言,介绍如何从零开始构建一个简单的神经网络。我们将使用纯Python代码,不依赖任何外部库,来展示神经网络的核心概念和工作原理。文章将详细解释每个步骤,并最终实现一个能够进行基本模式识别的神经网络模型。通过这篇文章,读者可以对神经网络有一个直观的理解,并为进一步学习深度学习打下坚实的基础。
|
安全 Linux 网络安全
渗透测试基础(全)(3)
渗透测试基础(全)
410 2