DFNet: Enhance Absolute Pose Regression withDirect Feature Matching

简介: DFNet: Enhance Absolute Pose Regression withDirect Feature Matching

论文:https://arxiv.org/abs/2204.00559

Oxford Active Vision Lab Code

代码:https://code.active.vision.

https://github.com/ActiveVisionLab/DFNet

摘要:

3c1ab74886654ecfb18f5f5710c9cbd7.png

本文研究了一种结合绝对位姿回归和直接特征匹配的相机定位方法,通过结合曝光-自适应新视图合成,我们的方法成功地解决了室外环境中的光度失真问题,这是现有基于光度的方法无法处理的。通过域不变特征匹配,我们的解决方案在未标记数据上使用半监督学习提高了位姿回归精度。特别地,该管道由两个组件组成:Novel View synizer和DFNet。前者合成补偿曝光变化的新视图,后者回归相机姿态并提取鲁棒特征,缩小真实图像和合成图像之间的域差距。此外,我们还介绍了一种在线合成数据生成方案。我们展示了这些方法有效地提高了室内和室外场景的相机姿态估计。因此,我们的方法 超过现有的单幅图像APR方法,达到了最先进的准确性,相比基于3D结构的方法提升了56%的准确率。

整体框架:

e2785232c66a4ea99465b718f9a615e7.png

输入一张图片I,一个位姿回归头估计相机的位姿p*,基于该位姿,一个光度先验NVS 系统H渲染出一张同步图像I*,使用特征提取器G提取M和M*的域不变特征,并提供了 特征-度量直接匹配信号Ldm来优化位姿回归量。

e72e4e7eb51848bfa1f56c7dd014ac6b.png

Method

(1)DFNet Structure

DFNet由两个网络组成姿态估计器F和特征提取器G,位姿估计器类似于普通的PoseNet,它预测6-DoF相机姿态P̂=F(I),它可以通过输入图像I姿态估计P̂及其GT姿态P之间的L1或者L2损失监督学习。DFNet中的特征提取器G将从各种卷积块中提取的特征图输入姿态估计器中,然后将它们喂入几个卷积块,产生最终的特征图M=G(I),该特征图是特征度量直接匹配阶段的关键成分。

我们寻求学习的特征提取器G的两个关键特性是 1)域不变性,即对真实图像和合成图像的域保持一致 ; 2)变换敏感,即对与由几何变换引起的图像差异敏感。用这些属性学习,我们的特征提取器可以提取域不变特征, 同时保留几何敏感信息,从而在特征度量直接匹配过程中学习位姿输出。

(2)Direct Feature Matching

APR中中的直接匹配在direct-PN中首次提出,该方法最大限度地降低了真实图像与通过估计位姿和真实图像渲染得到的合成图像之间的光度差异。 理想情况下,如果预测姿态P̂接近其地面真实姿态P,新的视图渲染器生成逼真的图像,渲染的图像Iˆ应该是与真实图像无法区分。

在实践中,我们发现当场景内容的一部分改变时基于光度的监控信号可能有噪声,例如,随机汽车和行人可能会随着时间出现而NeRF渲染质量并不是完美的。因此,我们建议在要素空间而不是光度空间来度量距离,鉴于深层要素是通常对外观变化和不完美的渲染更加鲁棒。

(3)Closing the Domain Gap

我们注意到来自NeRF的合成图像由于渲染瑕疵或缺乏动态内容的自适应的不完美,这导致渲染图像和真实图像之间的域间隙。这种域差距给我们的特征提取器带来了困难,这是我们预期的如果两个视图的姿势不同,则生成远处的特征渲染视图和来自相同姿势的真实图像之间的相似特征。直观地说,我们可以简单地执行特征提取器来生成类似的距离函数,训练渲染图像Iˆ和真实图像I的特征d(·)。然而,这种方法会导致模型崩溃,这也促使我们探索原始的损失。

ac5debbf12b94f3b9eafd107e777747b.png

24cca42b036b4878bfb6f90df41673b3.png

目录
相关文章
|
5月前
|
机器学习/深度学习 算法 关系型数据库
Hierarchical Attention-Based Age Estimation and Bias Analysis
【6月更文挑战第8天】Hierarchical Attention-Based Age Estimation论文提出了一种深度学习方法,利用层次注意力和图像增强来估计面部年龄。通过Transformer和CNN,它学习局部特征并进行序数分类和回归,提高在CACD和MORPH II数据集上的准确性。论文还包括对种族和性别偏倚的分析。方法包括自我注意的图像嵌入和层次概率年龄回归,优化多损失函数。实验表明,该方法在RS和SE协议下表现优越,且在消融研究中验证了增强聚合和编码器设计的有效性。
36 2
|
6月前
|
算法 BI 计算机视觉
[Initial Image Segmentation Generator]论文实现:Efficient Graph-Based Image Segmentation
[Initial Image Segmentation Generator]论文实现:Efficient Graph-Based Image Segmentation
60 1
|
6月前
|
算法 光互联 计算机视觉
Locally Adaptive Color Correction for Underwater Image Dehazing and Matching
该文提出了一种新颖的水下图像处理方法,结合颜色转移和局部调整来校正颜色,以应对水下光照和散射造成的图像退化。传统颜色转移方法基于全局参数,不适应水下场景中颜色变化的局部性质。文章中,作者通过融合策略,利用光衰减水平估计来实现局部颜色校正。首先,通过暗通道先验恢复彩色补偿图像,然后估计光衰减图。接着,创建一个合成图像,该图像的统计特性代表高衰减区域,用于颜色转移。最后,通过加权融合初始图像和颜色转移图像,生成最终的颜色校正图像。这种方法旨在提高水下图像的对比度和颜色准确性,特别关注高衰减区域。
63 1
|
自然语言处理 算法
SIFRank New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model
在社交媒体上,面临着大量的知识和信息,一个有效的关键词抽取算法可以广泛地被应用的信息检索和自然语言处理中。传统的关键词抽取算法很难使用外部的知识信息。
156 0
SIFRank New Baseline for Unsupervised Keyphrase Extraction Based on Pre-Trained Language Model
|
机器学习/深度学习 算法 计算机视觉
NeRF-Pose: A First-Reconstruct-Then-Regress Approach for Weakly-supervised 6D Object Pose Estimation
NeRF-Pose: A First-Reconstruct-Then-Regress Approach for Weakly-supervised 6D Object Pose Estimation
259 0
|
算法 PyTorch 算法框架/工具
论文解读:LaMa:Resolution-robust Large Mask Inpainting with Fourier Convolutions
论文解读:LaMa:Resolution-robust Large Mask Inpainting with Fourier Convolutions
647 0
|
机器学习/深度学习 人工智能 自然语言处理
OneIE:A Joint Neural Model for Information Extraction with Global Features论文解读
大多数现有的用于信息抽取(IE)的联合神经网络模型使用局部任务特定的分类器来预测单个实例(例如,触发词,关系)的标签,而不管它们之间的交互。
177 0
|
6月前
|
算法 计算机视觉
2017cvpr论文解读——Nasal Patches and Curves for Expression-Robust 3D Face Recognition
2017cvpr论文解读——Nasal Patches and Curves for Expression-Robust 3D Face Recognition
39 1
|
机器学习/深度学习 自然语言处理 算法
Joint Information Extraction with Cross-Task and Cross-Instance High-Order Modeling 论文解读
先前的信息抽取(IE)工作通常独立地预测不同的任务和实例(例如,事件触发词、实体、角色、关系),而忽略了它们的相互作用,导致模型效率低下。
91 0
|
机器学习/深度学习 人工智能 自然语言处理
【计算机视觉】CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching
CORA 在目标检测任务中提出了一种新的 CLIP 预训练模型适配方法,主要包括 Region Prompting 和 Anchor Pre-Matching 两部分。 这种方法能够让 CLIP 模型适应目标检测的任务,能够识别出图像中的对象,并提供准确的分类和定位信息。