
摘要
近年来,基于深度学习的方法在多视图立体视觉(multi-view stereo)任务中展现出强大优势,这主要得益于其卓越的视觉特征提取能力。然而,大多数基于学习的方法在处理大规模无纹理区域时,需构建代价体(cost volume)并大幅扩展感受野,以获得令人满意的重建效果,从而导致内存消耗急剧增加,难以实际应用。为兼顾内存效率与无纹理区域的鲁棒性,本文创新性地将深度学习中可变形卷积(deformable convolution)的思想引入传统的基于PatchMatch的方法中。具体而言,针对每个存在匹配模糊性的像素(称为不可靠像素),我们自适应地变形其周围的图像块,扩展感受野,直至覆盖足够数量具有相关性且无匹配模糊性的可靠像素(即作为锚点的像素)。在执行PatchMatch匹配时,由于受到这些锚点像素的约束,不可靠像素的匹配代价能够确保在正确深度处达到全局最小值,从而显著提升多视图立体重建的鲁棒性。为进一步提升锚点像素的检测能力,以支持更优的自适应块变形,本文提出通过观测优化过程中深度估计的收敛情况来评估某一像素的匹配模糊程度。实验结果表明,所提方法在ETH3D和Tanks and Temples数据集上均达到当前最优性能,同时保持了极低的内存占用。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-view-3d-reconstruction-on-eth3d | APD-MVS | F1 score: 87.44 |
| point-clouds-on-tanks-and-temples | APD-MVS | Mean F1 (Advanced): 39.91 Mean F1 (Intermediate): 63.64 |