
摘要
本文探讨了两幅图像之间密集像素对应估计的挑战。这一问题与光流估计任务密切相关,近年来卷积神经网络(ConvNets,简称CNNs)在该领域取得了显著进展。尽管光流方法在小像素位移和有限外观变化的情况下能够产生非常精确的结果,但在本研究中所考虑的强烈几何变换场景下,它们几乎无法应对。为此,我们提出了一种从粗到精的基于CNN的框架,该框架能够利用光流方法的优势,并将其扩展到大变换情况,提供密集且亚像素精度的估计结果。该模型在合成变换数据上进行训练,并在未见过的真实数据上表现出优异的性能。此外,我们将该方法应用于相对摄像机姿态估计问题,并证明该模型优于现有的密集方法。
代码仓库
AaltoVision/DGC-Net
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dense-pixel-correspondence-estimation-on | DGC-Net aff+tps+homo | Viewpoint I AEPE: 1.55 Viewpoint II AEPE: 5.53 Viewpoint III AEPE: 8.98 Viewpoint IV AEPE: 11.66 Viewpoint V AEPE: 16.70 |