视频实例分割是一个近几年兴起并逐渐引起广泛关注的领域,它要求算法同时完成视频中的物体的检测、分割、分类、以及跟踪。目前主流的视频实例分割算法可以被分为 Online 和 Offline 两种范式,Online 模型通过逐帧分割并添加后处理进行跟踪,将图像实例分割算法扩展到视频实例分割任务上。Offline 模型通过将整段视频输入以同时获得分割和跟踪的结果。这两种范式各有其特色以及特殊的应用场景。
本次分享中,来自华中科技大学、字节跳动、约翰霍普金斯大学的研究者们提出了分别基于 Offline 和 Online 范式的两个视频实例分割 SOTA 模型:SeqFormer 和IDOL,这两篇工作现在都已经被 ECCV2022 接受为 Oral。在此之前,Online 模型的性能远远落后于 Offline 模型,该工作深入分析了此前 Offline 和 Online 模型性能相差巨大的原因,揭示了视频实例分割任务的关键问题,并且补齐了这个差距,让这两种范式回到相同的起跑线上。此外 IDOL 在第四届大规模视频物体分割挑战赛( 4th Large-scale Video Object Segmentation Challenge,CVPR2022)的视频实例分割赛道上取得第一名。