ShenXuelun ; CaiZhipeng ; YinWei ; MüllerMatthias ; LiZijun ; WangKaixuan ; ChenXiaozhi ; WangCheng

摘要
图像匹配是计算机视觉中的一个基本问题。尽管基于学习的方法在现有基准测试中取得了最先进的性能,但它们对野外图像的泛化能力较差。这些方法通常需要为不同的场景类型训练单独的模型,当场景类型事先未知时,这种方法并不实用。其中一个根本问题是现有的数据构建管道的可扩展性有限,这限制了标准图像匹配数据集的多样性。为了解决这一问题,我们提出了一种自训练框架——GIM(Generalizable Image Matching),该框架可以利用互联网视频(一种丰富且多样的数据源)来学习单一的泛化模型,适用于任何图像匹配架构。给定一个架构后,GIM首先在标准领域特定的数据集上对其进行训练,然后将其与互补的匹配方法结合,以在新视频的相邻帧上生成密集标签。这些标签通过鲁棒拟合进行过滤,随后通过传播到远距离帧来增强。最终模型在经过强增强处理的传播数据上进行训练。我们还提出了ZEB(Zero-Shot Evaluation Benchmark),这是首个用于图像匹配的零样本评估基准。通过混合来自不同领域的数据,ZEB可以全面评估各种方法在跨域泛化方面的性能。应用GIM可以显著提升3种最先进的图像匹配架构的零样本性能;使用50小时的YouTube视频后,相对零样本性能提高了8.4%至18.1%。此外,GIM还能够实现对极端跨域数据(如投影3D点云的鸟瞰图(BEV)图像)的泛化(图1(c))。更重要的是,在针对各自领域下游任务的评估中,我们的单一零样本模型始终优于领域特定基线模型。视频演示可在以下链接观看:https://www.youtube.com/watch?v=FU_MJLD8LeY。
代码仓库
xuelunshen/gim
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-matching-on-zeb | GIM-RoMa | Mean AUC@5°: 53.3 |
| image-matching-on-zeb | GIM-DKM | Mean AUC@5°: 51.2 |
| image-matching-on-zeb | GIM-LightGlue | Mean AUC@5°: 38.3 |
| image-matching-on-zeb | GIM-LoFTR | Mean AUC@5°: 39.1 |
| pose-estimation-on-inloc | GIM-LoFTR | DUC1-Acc@0.25m,10°: 54.5 DUC1-Acc@0.5m,10°: 78.3 DUC1-Acc@1.0m,10°: 87.4 DUC2-Acc@0.25m,10°: 63.4 DUC2-Acc@0.5m,10°: 83.2 DUC2-Acc@1.0m,10°: 87.0 |
| pose-estimation-on-inloc | GIM-DKM | DUC1-Acc@0.25m,10°: 57.1 DUC1-Acc@0.5m,10°: 78.8 DUC1-Acc@1.0m,10°: 88.4 DUC2-Acc@0.25m,10°: 70.2 DUC2-Acc@0.5m,10°: 91.6 DUC2-Acc@1.0m,10°: 92.4 |
| pose-estimation-on-inloc | GIM-SuperGlue | DUC1-Acc@0.25m,10°: 53.5 DUC1-Acc@0.5m,10°: 76.8 DUC1-Acc@1.0m,10°: 86.9 DUC2-Acc@0.25m,10°: 61.8 DUC2-Acc@0.5m,10°: 85.5 DUC2-Acc@1.0m,10°: 87.8 |
| visual-localization-on-aachen-day-night-v1-1 | GIM-DKM | Acc@0.25m, 2°: 77.0 Acc@0.5m, 5°: 90.1 Acc@5m, 10°: 99.5 |
| visual-localization-on-aachen-day-night-v1-1 | GIM-SuperGlue | Acc@0.25m, 2°: 78.0 Acc@0.5m, 5°: 90.6 Acc@5m, 10°: 100.0 |
| visual-localization-on-aachen-day-night-v1-1 | GIM-LoFTR | Acc@0.25m, 2°: 79.1 Acc@0.5m, 5°: 91.6 Acc@5m, 10°: 100.0 |