论文:https://arxiv.org/abs/2204.00559
Oxford Active Vision Lab Code
代码:https://code.active.vision.
https://github.com/ActiveVisionLab/DFNet
摘要:
本文研究了一种结合绝对位姿回归和直接特征匹配的相机定位方法,通过结合曝光-自适应新视图合成,我们的方法成功地解决了室外环境中的光度失真问题,这是现有基于光度的方法无法处理的。通过域不变特征匹配,我们的解决方案在未标记数据上使用半监督学习提高了位姿回归精度。特别地,该管道由两个组件组成:Novel View synizer和DFNet。前者合成补偿曝光变化的新视图,后者回归相机姿态并提取鲁棒特征,缩小真实图像和合成图像之间的域差距。此外,我们还介绍了一种在线合成数据生成方案。我们展示了这些方法有效地提高了室内和室外场景的相机姿态估计。因此,我们的方法 超过现有的单幅图像APR方法,达到了最先进的准确性,相比基于3D结构的方法提升了56%的准确率。
整体框架:
输入一张图片I,一个位姿回归头估计相机的位姿p*,基于该位姿,一个光度先验NVS 系统H渲染出一张同步图像I*,使用特征提取器G提取M和M*的域不变特征,并提供了 特征-度量直接匹配信号Ldm来优化位姿回归量。
Method
(1)DFNet Structure
DFNet由两个网络组成姿态估计器F和特征提取器G,位姿估计器类似于普通的PoseNet,它预测6-DoF相机姿态P̂=F(I),它可以通过输入图像I姿态估计P̂及其GT姿态P之间的L1或者L2损失监督学习。DFNet中的特征提取器G将从各种卷积块中提取的特征图输入姿态估计器中,然后将它们喂入几个卷积块,产生最终的特征图M=G(I),该特征图是特征度量直接匹配阶段的关键成分。
我们寻求学习的特征提取器G的两个关键特性是 1)域不变性,即对真实图像和合成图像的域保持一致 ; 2)变换敏感,即对与由几何变换引起的图像差异敏感。用这些属性学习,我们的特征提取器可以提取域不变特征, 同时保留几何敏感信息,从而在特征度量直接匹配过程中学习位姿输出。
(2)Direct Feature Matching
APR中中的直接匹配在direct-PN中首次提出,该方法最大限度地降低了真实图像与通过估计位姿和真实图像渲染得到的合成图像之间的光度差异。 理想情况下,如果预测姿态P̂接近其地面真实姿态P,新的视图渲染器生成逼真的图像,渲染的图像Iˆ应该是与真实图像无法区分。
在实践中,我们发现当场景内容的一部分改变时基于光度的监控信号可能有噪声,例如,随机汽车和行人可能会随着时间出现而NeRF渲染质量并不是完美的。因此,我们建议在要素空间而不是光度空间来度量距离,鉴于深层要素是通常对外观变化和不完美的渲染更加鲁棒。
(3)Closing the Domain Gap
我们注意到来自NeRF的合成图像由于渲染瑕疵或缺乏动态内容的自适应的不完美,这导致渲染图像和真实图像之间的域间隙。这种域差距给我们的特征提取器带来了困难,这是我们预期的如果两个视图的姿势不同,则生成远处的特征渲染视图和来自相同姿势的真实图像之间的相似特征。直观地说,我们可以简单地执行特征提取器来生成类似的距离函数,训练渲染图像Iˆ和真实图像I的特征d(·)。然而,这种方法会导致模型崩溃,这也促使我们探索原始的损失。