CVPR 2022 | 结合短期动态、长期一致性，视频伪装物体检测框架，大幅超越SOTA（2）-阿里云开发者社区

CVPR 2022 | 结合短期动态、长期一致性，视频伪装物体检测框架，大幅超越SOTA（2）

2023-05-16 303

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： CVPR 2022 | 结合短期动态、长期一致性，视频伪装物体检测框架，大幅超越SOTA

3. CNN 解码器：如 [9] 所述，近邻连接解码器相比通常的连接解码器（如稠密连接或者短连接）更加可靠。此外，[9] 所使用的分组反向注意力（Group-Reversal Attention，GRA）策略可以在物体边界处提供更加准确的分割结果。基于此，本文直接将来自短期相关性金字塔的特征，即 , i ∈ {2, 3, 4}，输入到 GRA 中，生成优化的特征图。近邻连接解码器（Neighbor Connection Decoder，NCD）用来生成粗糙的图，该图可以提供伪装物体大致定位的反向引导。如此，就可以汇聚来自 CNN 解码器的低层特征和来自相关金字塔的高层特征。
长期一致性架构
给定一个来自短期架构的序列，与像素级的预测，本文将长期一致性优化过程定义为一个 seq-to-seq 问题。图5给出长期一致性的架构。本文使用同样的骨干网络，即 Transformer 编码器和 CNN 解码器模块，作为短期架构。因为该架构已经在伪装数据集做过了预训练，使得大大加速长期框架的训练过程。

对于输入序列的每一帧，本文将色彩帧 I_t 与其在通道维对应的预测进行拼接，然后堆叠每个序列中拼接的帧，形成一个 4D 张量。网络将作为输入，输出最终的预测序列。

有两类 seq-to-seq 的建模框架：一类是使用 ConvLSTM 来建模时序信息，另一类使用基于 Transformer 的建模网络。本文实现了两种架构，并且在4.4小节对比了它们的结果。据本文所知，使用 Transformer 结构可以得到更好的结果，所以，本文选择 Transformer 来作为序列建模的网络，来引入长期一致性约束。
如图5中右侧所示，为 seq-to-seq 建模网络的细节。对于每一个目标像素，为了减少构建稠密时空相似度矩阵的复杂度，本文选择一个固定数量的关联性度量块来构建受约束邻域内的相关度矩阵。训练中，本文采用一个混合损失函数 [10]：

其中，是增强对齐损失。这样的混合损失可以引导网络去学习像素级、物体级以及图像级的特征。
实验
本节在 CAD 数据集和本文提出的 MoCA-Mask 数据集上，对本文所提的框架进行了系统地评估。本文同时给出了一个 VCOD 任务的全面的评测基准，来促进该领域发展。
MoCA-Mask 数据集上的性能：如表1所示，本文的方法明显优于对比方法。其中，在 S_α 指标上以 9.88% 的差距，超过当前最好的对比模型 RCRNet [46]，在指标上以 92.97% 超过了 SINet [11] 模型。如图6，给出本文的方法与基准模型的定性对比。本文的模型可以在很多有挑战性的情况（例如物体有纤细的躯干或复杂的外观纹理、模糊或者突变运动）中，更加准确地定位与分割伪装物体。

CAD 数据集上的性能：如表2所示，本文评估了不同方法在 CAD 数据集上的跨数据集的泛化性。本文的方法再次在所有 6 个评测指标上优于对比方法。进一步展现出本文方法的鲁棒性。如图7所示，本文的方法可以得到更加清晰的边界与更细粒度的可视化细节。这受益于模型在特征空间所构建的像素级相关性对。

本文在 MoCA-Mask 数据集上进行消融实验。具体来讲，本文深入研究了：短期和长期模块的功能性分析，sequence-to-sequence 框架选择以及本文的伪掩模。
短期和长期模块：本文从两个方面来评估短期和长期模块的有效性。首先，如表3所示，本文在 MoCA-Mask 数据集上对短期和长期模块进行了消融实验。

然后，本文在当前先进的 VSOD 模型 RCRNet [46] 上，用本文的基于 Transformer 的编码器来替换它原来的编码器，用来比较这两种方法对于时序信息的处理策略，结果如表4所示。在时空一致性建模层面，在评估指标上，能看出操作所带来的指标的提升与下降，在 S_α 指标上提升1.51%，在上下降 0.97%，在 E_ϕ 上降低 0.16%，在 M 上提升 6.98%。

Transformer 与 ConvLSTM 的对比：本文用两种不同的方法来实现长期架构，分别是基于 Transformer 的方法和基于 ConvLSTM 的方法。对于 ConvLSTM 方法，本文采用了 [6] 提出的一个比较新的 ConvLSTM 模型变体，但是本文将其中 VGG 风格的 CNN 编码器解码器结构，用本文的 Transformer 风格的骨干网络代替。从表5中能看到，Transformer 变体相比 ConvLSTM 模型在 4 个指标上都更优，并且参数量更少。

5. 结论
本文提出了一个用于视频伪装物体分割的方法 SLT-Net。具体来讲，本文使用短期模块来隐式捕捉连续帧之间的运动，使得本文可以在一个框架下同时优化运动的估计和分割。本文还提出了一个基于 sequence- to-sequence Transformer 的长期模块，来保证视频序列上的时序一致性。为了促进 VCOD 领域的发展，本文重新构造了名为 MoCA-Mask 的新数据集，包括了 87 段高质量视频序列，共计 22,939 帧，是 VCOD 领域目前最大的像素级标注数据集，使得物体级别评测成为可能。对比了当前最先进的基准模型，本文提出的网络在两个 VCOD 评测基准上均取得了最优的表现。

CVPR 2022 | 结合短期动态、长期一致性，视频伪装物体检测框架，大幅超越SOTA（2）

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

CVPR 2022 | 结合短期动态、长期一致性，视频伪装物体检测框架，大幅超越SOTA（2）

热门文章

最新文章

相关电子书