多视图立体视觉: CVPR 2019 与 AAAI 2020 上的ACMH、ACMM及ACMP算法介绍-阿里云开发者社区

【新智元导读】在三维重建任务中，由于数据量大、弱纹理、遮挡、反射等问题，如何高效准确地实现多视图立体视觉仍然是一个具有挑战性的问题。

多视图立体视觉(MVS)一直是计算机视觉研究的一个热点。它的目的是从多个已知相机姿态的图像中建立密集的对应关系，从而产生稠密的三维点云重建结果。在过去的几年里，人们在提高稠密三维重建的质量上付出了很大的努力，一些算法如PMVS、GIPUMA以及COLMAP等取得了令人印象深刻的效果。

然而，在三维重建任务中，由于数据量大、弱纹理、遮挡、反射等问题，如何高效准确地实现多视图立体视觉仍然是一个具有挑战性的问题。

为了进一步提升三维重建的性能，来自华中科技大学的研究人员提出了多尺度几何一致性引导的MVS方法ACMH、ACMM和基于平面先验的MVS方法ACMP，能够有效地恢复弱纹理区域的深度信息，从而获得高完整性的三维模型。

算法在公开的三维重建评测数据集ETH 3D和Intel Tanks and Temples上获得优异的性能，在公开发表的论文中评估结果领先于同类方法。

背景

目前，多视图立体视觉一般采用两个步骤重建场景的稠密三维模型。首先为每幅图像估计其深度图，然后将这些深度图融合得到统一的点云表示。其中，深度图估计是该流程中的关键。

为了高效地得到每张图像的深度信息，目前的方法一般基于PatchMatch的迭代优化方式来估计深度图，通常包含四个步骤：随机初始化（Initialization）、采样传播(Sampling and Propagation)、视图选择（View Selection）和细化（refinement），如图1所示。

图1 PatchMatch多视图立体视觉框架

然而，目前的PatchMatch方法在采样传播的效率和视图选择的准确性上很难同时兼顾，而且无法很好地处理弱纹理区域的深度估计问题。

为此，研究人员在他们的近期工作中提出了高效准确的ACMH算法，ACMH算法不仅在性能上优于经典的COLMAP算法，并且计算效率是COLMAP的8-10倍。进而为解决MVS中弱纹理区域的深度估计问题，研究人员进一步提出多尺度几何一致性引导的ACMM算法以及基于概率图模型的平面先验引导的ACMP算法。

这些工作的主要贡献有以下几点：

1）提出了自适应棋盘网格采样策略，以捕获更好的候选假设空间。在此基础上，提出了一种启发式的视图选择策略，能够鲁棒的完成逐像素的视图选择。

算法不仅继承棋盘网格传播的高效性，在效率方面是传统的COLMAP算法的8-10倍，也由于逐像素视图选择推断的准确性使得算法具有比COLMAP算法更好的性能。

2）基于ACMH算法框架，研究人员提出多尺度几何一致性引导的MVS算法框架ACMM。通过构造图像金字塔，在不同尺度上捕获歧义性区域的显著性信息，并通过多视图的几何一致性来优化传递该信息。

此外，还提出尺度间的细节恢复器来保证场景的细节不在多尺度的传递中被湮灭。ACMM由于引入了多尺度信息，在弱纹理区域的深度估计方面具有突出的性能，性能相比ACMH有了大大的提高。

3）提出基于概率图模型的平面先验辅助的ACMP算法框架。为了自适应地为弱纹理区域捕获更合适的显著性信息。研究人员通过三角化图像中深度可靠的稀疏像素点来构造平面先验模型。

然后通过构造概率图模型来推导平面先验辅助的多视图匹配代价函数。这样不仅能保证PatchMatch的高效性，而且自适应地感知弱纹理区域的显著性信息以辅助其深度估计。实验结果表明，在没有融合多尺度信息的条件下，平面先验引导的ACMP算法就能够取得优于ACMM更好的性能。

自适应网格传播及启发式视图选择的MVS框架——ACMH算法

图2 自适应棋盘网格传播方式

由于邻域内像素点深度值具有相关性，在一个的邻域内，其中一个像素点得到了较优的估计，在之后的迭代更新过程中，则它的估计值会向它的上下左右相邻像素点进行传播，从而实现稠密深度图的迭代优化。

COLMAP采用的是如图2左边的从上到下从左到右的传播方法（如图2左边所示）,这种传播方式使得算法的并行规模与图像的行数或列数成正比，对GPU的利用效率不高。

Gipuma采用一种红黑棋盘网格的传播方式，将二维图像像素点以红黑棋盘的方式进行分组，并以扩散的方式采样邻域像素点（如图2中间所示）。

在每次迭代中，当前黑色的像素会选择周围固定8个位置的深度假设作为当前像素的后续假设。这种邻域传播机制相比COLMAP的左右上下传播机制可以更加充分的利用GPU实现大规模的并行操作，从而提高算法的效率。

实际中Gipuma算法的计算效率也是大大优于COLMAP算法。然而COLMAP算法采用了较为复杂的基于马尔科夫链模型的视图选择策略，而Gipuma算法则缺乏视图选择，在迭代过程中简单的选取前k个最小匹配代价求平均来计算每个候选假设的匹配代价。因而在性能上Gipuma算法比COLMAP算法要差很多。

ACMH也采用类似Gipuma的棋盘网格方式，因而继承了Gipuma的高效并行的优势，同时在两个方面进行了创新：

1）优化了红黑棋盘格的传播方法，不是像Gipuma采用固定的8个位置假设，而是采用图2右边所示的V形和长条形区域来自适应地选取局部最优假设进行传播，其中，每个V形区域包含7个可采样点，每个长条区域包含11个可采样点。这样使得算法能够有机会找到更好的深度假设。

2）不是像Gipuma那样对每个候选假设简单的选取N个源视图中前k个最小NCC匹配代价的平均值作为评价候选假设好还的依据，而是引入了视图选择机制，提出了一种启发式的多假设联合视图选择策略来对NCC匹配代价进行加权。

图3 启发式多假设联合视图选择策略

图3为启发式多假设联合视图选择的基本实现过程。当前像素有8个候选假设，对每个候选假设，N个源视图会得到N个NCC匹配代价，所有的NCC匹配代价形成一个8*N的矩阵，根据矩阵的每一行可以度量该候选假设的可靠性。

在原始的Gipuma算法中，对每一行都独立的进行处理，选择每一行中最好的k个NCC匹配代价计算平均值来衡量该假设的可靠性。

这种方式的问题是没有考虑当前像素在源视图上的可见性。图3左边上方很好的说明了这个问题，如果当前像素在某个源视图上是不可见的，那么这个源视图对应的NCC匹配代价就不能用来度量候选假设的可靠性。

因此，对每个像素而言，N个源视图的可见性都是不同的，需要采用一个权值来度量每个视图对当前像素的可见程度，然后计算k个最好的NCC匹配代价的加权平均值来衡量该假设的可靠性。

每个源视图的可见性权值的计算是关键，研究人员提出了一种启发式的多假设联合视图选择策略。每个源视图对应NCC代价矩阵中的一列8个代价值，一个简单易行的策略是使用该列代价值的好坏的衡量该视图的可见性好坏。

如果较好的代价值个数较多，超过一定阈值（如3个），而较差的代价值个数较少，少于一定阈值（如2个），则认为该视图是当前像素的可见视图，否则是不可见的，不能参与评估候选假设。

对可见视图，将其好的代价值归一化到0，1之间的权值，其代价越好，权值越大。最后计算每个候选假设的k个最好的NCC匹配代价的加权平均值。

最后，进行细化步骤来细化像素所处的平面假设，进一步降低聚合代价，丰富解空间的多样性。对于法向和深度，存在三种可能的状态：法向接近优解，深度接近优解，都不接近优解。

因此，我们产生两个新的假设，其中一个是随机生成的，另一个是通过扰动得到的。将这些新的深度和法向与当前的深度和法向结合起来，产生了另外六个有待检验的新假设。选择聚合成本最小的假设作为像素p的最终估计，对上述传播、视图选择和细化进行多次重复，得到参考图像的最终深度图。

多尺度融合的ACMH框架——ACMM

图4 多尺度几何一致性引导框架

弱纹理区域的深度估计一直是MVS中比较困难的问题。一般来说图像分辨率越高，稠密三维重建的效果应该越好。

但是分辨率的提高也意味着弱纹理区域的增多。纹理是一个相对的概念，比较同一个场景的低分率图像和高分辨率图像，我们会发现，在高分辨图像中是弱纹理的区域在低分辨率图像中却具有丰富的细节。

因此，低分辨率图像能够更好的捕获图像的结构信息，在重建中对高分辨率图像应该具有很好的补助作用。研究人员根据这一观察构建了一个多尺度的ACMH算法框架——ACMM算法（基本原理如图4所示）。

图像的纹理信息在不同尺度上的显著性是不同的。为了更好地为歧义性的区域感知其显著性信息，研究人员提出了多尺度几何一致性引导框架，不仅在不同的尺度上感知显著信息，并且通过多视图的几何一致性来更好地传递该信息。

具体来说，研究人员对输入的图像集合构造图像金字塔，然后由粗到细地恢复每个尺度的深度图信息。在获得较粗尺度下弱纹理区域的深度估计后通过上采样以及严格的几何一致性校验，然后将它们传播到更精细的尺度，在更精细的尺度上优化这些估计。上采样的估计跟当前尺度的估计融合之后进行和ACMH相同的传播、视图选择和细化。

在上采样之后，还需要使用细节恢复器来修正细节上的误差。具体操作为：在当前尺度上，计算上采样的估计值对应的光度一致性代价以及该尺度RGB图像计算新的光度一致性代价，比较两个代价值，对于差值大于阈值的像素点，使用新的代价对应的估计值更新原来的估计。

细节恢复器的使用，防止了在弱纹理区域由上一尺度上采样得到的可靠估计丢失。这样，为了进一步保证多视图间的深度一致性，研究人员采用几何一致性来优化当前尺度的估计。