ECCV 2022|DynamicDepth:动态场景下的多帧自监督深度估计

简介: 在DOMD进行crop-粘贴的操作之后,图片中已不存在动态物体,但是新的问题又出现了,那就是遮挡区域,如下图的输入部分,我们可以看到crop后的部分区域是黑色的,因为该部分实际被遮挡了,因此本文在构建cost volume的时候需要考虑到被遮挡的情况。如上图所示,被遮挡部分的特征被临近部分的数据所填充,这样可以促进训练的梯度流向附近的non-occluded区域。

🏆前言:本文别名DynamicDepth (github),如本文的名字所示,本文着重处理的就是动态场景下的多帧自监督深度估计问题。因为MVS在动态场景下会失效,所以在动态区域的多帧深度并不可靠。现在的已有方法例如ManyDepth,利用teacher-student网络结构,让多帧部分的网络在不可信区域向单帧部分的网络学习,但是所谓不可信区域的判断准则仅仅是依靠多帧深度和单帧深度的差异来计算的,不一定准确。所以DynamicDepth提出的核心论点就是显示地构建动态区域的优化。


dfcbc1ab9ac07117067cc5cf16215724.png


会议/期刊:2022ECCV


论文题目:《Disentangling Object Motion and Occlusion for Unsupervised Multi-frame Monocular Depth》

论文链接:Disentangling Object Motion and Occlusion for Unsupervised Multi-frame Monocular Depth

开源代码:AutoAILab/DynamicDepth(github.com)

YouTube:[ECCV 2022] Disentangling Object Motion and Occlusion for Unsupervised Multi-frame Monocular Depth - YouTube


解决的问题


先前的工作都是存在以下缺陷:


  • 针对运动物体,都是在损失函数水平上解决不匹配问题,而不能利用运动物体的帧间关系推导出几何关系
  • 并未解决物体运动引起的遮挡问题
  • 运动方向估计网络(我认为是指光流法)增加模型复杂性,不适用于柔性目标


29a47666e275c0542b40f77b08ca8d5d.png


基本流程


8bc74b22e8cbf072f20bb690682c5bd8.png


1.首先使用一个深度先验估计网络(Depth Prior Net)输出深度图 image.png,姿态估计网络(Pose Net)输出帧间运动关系

2.将2个结果输入DOMD模块中,解决物体运动引起的不匹配问题,得到运动物体被解耦的帧 image.png

3.image.png、It会进入到遮挡感知模块,用于解决遮挡问题,得到预测出的深度图 D t 在训练的时候,动态物体周期一致损失将使得深度图先验 D t 和深度图预测结果image.png互相提高


实施细节


动态物体解耦(DOMD)


首先我们来回顾一下动态场景会对多帧深度学习造成什么样的影响?


如下图所示,在MVS的静态假设下,我们认为被拍摄的物体没有移动。从 t 时刻和 t−1 时刻观察该物体,他们的位置都在W(两条线相交于一点),因此他们在图象上的对应区域是 C t 和 C t − 1 。但是在实际场景中,物体已经从W t − 1 移动到 W t ,在图像上匹配的区域应该是 image.png和 C t


71822a57b3da7adca1a458f53ac77c73.png


用动画来表示:


e803d51865284de2a3c7d4d878c702a6.gif


为了避免这种匹配错误,本文提出的DOMD模块先利用预训练的分割网络分割出人,车等动态区域,得到分割掩码 ( S t − 1 , S t ) ,和两帧图片 ( I t − 1 , I t )作为输入,生成解耦后的图片image.png

image.png


具体来说,我们首先使用单帧深度先验网络 θ D P N来预测初始深度先验image.png  ,image.png用于将 C t

重投影到image.pngimage.png表示 t-1 时刻相机看 W t点的像素块。最后,得到image.png  。该过程用公式可以表达如下,p i t − 1 表示映射关系:


image.png


这个过程有点像crop-粘贴的操作,其结果是,t时刻帧不再有动态物体


该过程如下所示:


adeea856bc2eefe032246063893e310b.gif


遮挡感知成本量


0c1885580eb02619b29229b79b03fd86.png


在DOMD进行crop-粘贴的操作之后,图片中已不存在动态物体,但是新的问题又出现了,那就是遮挡区域,如下图的输入部分,我们可以看到crop后的部分区域是黑色的,因为该部分实际被遮挡了,因此本文在构建cost volume的时候需要考虑到被遮挡的情况。如上图所示,被遮挡部分的特征被临近部分的数据所填充,这样可以促进训练的梯度流向附近的non-occluded区域。


cost values的公式计算:


image.png


训练细节


我们使用帧 i t − 1 , i t , i t + 1  进行训练,使用i t + 1 ,i t进行测试。本文的所有动态对象都是由预训练好的语义分割模型EffcientPS得到


总结


24bbad088d4aadd8018fd859802b4759.png


由上图可知,DynamicDepth相比于之前的工作,其深度预测更准确,特别是在Cityscapes上,原因是该数据集包含更多动态对象。


具体来说,其贡献可以总结为以下几点:


  • 提出了一种新的动态物体运动解耦(DOMD)模块,该模块利用初始深度先验和分割网络来解决最终深度预测中的物体运动不匹配问题
  • 设计了一种针对运动物体周期性的训练方案(Dynamic Object Cycle Consistent training scheme),相辅相成提高先验深度估计和最终深度估计
  • 我们设计了一个遮挡感知损失缓解DOMD解耦后运动目标的遮挡问题


但Dynamic依然存在的问题是:利用了预训练的分割网络,导致预测的深度结果和分割网络的性能密切相关

参考资料


单目多帧自监督深度估计(2021-2022)研究进展 - 知乎 (zhihu.com)

相关文章
|
4月前
|
机器学习/深度学习 监控 算法
yolov8+多算法多目标追踪+实例分割+目标检测+姿态估计(代码+教程)
yolov8+多算法多目标追踪+实例分割+目标检测+姿态估计(代码+教程)
387 1
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
【论文精读】COLING 2022 -带有对偶关系图注意力网络的事件检测模型
|
4月前
|
编解码 算法 自动驾驶
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
【计算机视觉】基于光流特征的目标跟踪算法LK光流法的讲解(图文解释 超详细)
336 0
|
机器学习/深度学习 数据可视化 自动驾驶
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
181 0
NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型
|
机器学习/深度学习 编解码 自动驾驶
联合训练2D-3D多任务学习 | 深度估计、检测、分割、3D检测通吃
联合训练2D-3D多任务学习 | 深度估计、检测、分割、3D检测通吃
324 0
|
机器学习/深度学习 算法 数据可视化
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
ICLR 2023 Oral | 漂移感知动态神经网络加持,时间域泛化新框架远超领域泛化&适应方法
|
传感器 机器学习/深度学习 存储
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
语义分割在大规模室外场景理解中起着至关重要的作用,在自动驾驶和机器人技术中有着广泛的应用[1-3]。在过去几年中,研究界投入了大量精力,使用相机图像[4-7]或激光雷达点云[2,8-12]作为输入来理解自然场景。
登顶KITTI和NuScenes | 2DPASS:2D先验辅助的激光雷达点云语义分割!ECCV2022
谷歌、DeepMind新研究:归纳偏置如何影响模型缩放?
谷歌、DeepMind新研究:归纳偏置如何影响模型缩放?
|
机器学习/深度学习 人工智能 算法
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
CVPR 2022 | CNN自监督预训练新SOTA:上交、Mila、字节联合提出具有层级结构的图像表征自学习新框架
241 0
|
机器学习/深度学习 编解码 数据可视化
从4K到16K仅用一张图像训练,首个单样本超高分辨率图像合成框架来了
从4K到16K仅用一张图像训练,首个单样本超高分辨率图像合成框架来了
178 0