
摘要
我们提出了一种基于深度神经网络的新框架,用于在图像中寻找对应点。该框架能够在给定两张图像和其中一张图像中的查询点的情况下,找到其在另一张图像中的对应点。通过这种方式,用户可以选择仅查询感兴趣的点以获取稀疏对应关系,或者查询整张图像的所有点以获得密集映射。重要的是,为了捕捉局部和全局先验信息,并使我们的模型能够利用这些先验中最相关的信息来关联图像区域,我们采用了变压器(transformer)来实现网络。在推理阶段,我们通过递归地放大估计值周围的区域来应用对应的网络,从而形成一个多尺度管道,能够提供高精度的对应关系。我们的方法在多个数据集和任务上显著优于现有技术,在从宽基线立体视觉到光流等各种问题上均表现出色,且无需针对特定数据集进行重新训练。我们承诺将发布所有必要的数据、代码和工具,以便从头开始训练并确保可复现性。
代码仓库
ubc-vision/COTR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| dense-pixel-correspondence-estimation-on | COTR +Interp. | PCK-1px: 33.08 PCK-3px: 77.09 PCK-5px: 86.33 Viewpoint I AEPE: 7.98 |
| dense-pixel-correspondence-estimation-on | COTR | PCK-1px: 40.91 PCK-3px: 82.37 PCK-5px: 91.1 Viewpoint I AEPE: 7.75 |
| dense-pixel-correspondence-estimation-on-1 | COTR | Average End-Point Error: 1.28 |
| dense-pixel-correspondence-estimation-on-1 | COTR +Interp. | Average End-Point Error: 2.62 |
| dense-pixel-correspondence-estimation-on-2 | COTR | Average End-Point Error: 2.26 |
| dense-pixel-correspondence-estimation-on-2 | COTR +Interp. | Average End-Point Error: 6.12 |
| dense-pixel-correspondence-estimation-on-3 | COTR +Interp. | AEPE (rate=5): 1.71 |
| dense-pixel-correspondence-estimation-on-3 | COTR | AEPE (rate=3): 1.66 |