4 个月前

GIM:从互联网视频中学习泛化图像匹配器

GIM:从互联网视频中学习泛化图像匹配器

摘要

图像匹配是计算机视觉中的一个基本问题。尽管基于学习的方法在现有基准测试中取得了最先进的性能,但它们对野外图像的泛化能力较差。这些方法通常需要为不同的场景类型训练单独的模型,当场景类型事先未知时,这种方法并不实用。其中一个根本问题是现有的数据构建管道的可扩展性有限,这限制了标准图像匹配数据集的多样性。为了解决这一问题,我们提出了一种自训练框架——GIM(Generalizable Image Matching),该框架可以利用互联网视频(一种丰富且多样的数据源)来学习单一的泛化模型,适用于任何图像匹配架构。给定一个架构后,GIM首先在标准领域特定的数据集上对其进行训练,然后将其与互补的匹配方法结合,以在新视频的相邻帧上生成密集标签。这些标签通过鲁棒拟合进行过滤,随后通过传播到远距离帧来增强。最终模型在经过强增强处理的传播数据上进行训练。我们还提出了ZEB(Zero-Shot Evaluation Benchmark),这是首个用于图像匹配的零样本评估基准。通过混合来自不同领域的数据,ZEB可以全面评估各种方法在跨域泛化方面的性能。应用GIM可以显著提升3种最先进的图像匹配架构的零样本性能;使用50小时的YouTube视频后,相对零样本性能提高了8.4%至18.1%。此外,GIM还能够实现对极端跨域数据(如投影3D点云的鸟瞰图(BEV)图像)的泛化(图1(c))。更重要的是,在针对各自领域下游任务的评估中,我们的单一零样本模型始终优于领域特定基线模型。视频演示可在以下链接观看:https://www.youtube.com/watch?v=FU_MJLD8LeY。

代码仓库

xuelunshen/gim
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
image-matching-on-zebGIM-RoMa
Mean AUC@5°: 53.3
image-matching-on-zebGIM-DKM
Mean AUC@5°: 51.2
image-matching-on-zebGIM-LightGlue
Mean AUC@5°: 38.3
image-matching-on-zebGIM-LoFTR
Mean AUC@5°: 39.1
pose-estimation-on-inlocGIM-LoFTR
DUC1-Acc@0.25m,10°: 54.5
DUC1-Acc@0.5m,10°: 78.3
DUC1-Acc@1.0m,10°: 87.4
DUC2-Acc@0.25m,10°: 63.4
DUC2-Acc@0.5m,10°: 83.2
DUC2-Acc@1.0m,10°: 87.0
pose-estimation-on-inlocGIM-DKM
DUC1-Acc@0.25m,10°: 57.1
DUC1-Acc@0.5m,10°: 78.8
DUC1-Acc@1.0m,10°: 88.4
DUC2-Acc@0.25m,10°: 70.2
DUC2-Acc@0.5m,10°: 91.6
DUC2-Acc@1.0m,10°: 92.4
pose-estimation-on-inlocGIM-SuperGlue
DUC1-Acc@0.25m,10°: 53.5
DUC1-Acc@0.5m,10°: 76.8
DUC1-Acc@1.0m,10°: 86.9
DUC2-Acc@0.25m,10°: 61.8
DUC2-Acc@0.5m,10°: 85.5
DUC2-Acc@1.0m,10°: 87.8
visual-localization-on-aachen-day-night-v1-1GIM-DKM
Acc@0.25m, 2°: 77.0
Acc@0.5m, 5°: 90.1
Acc@5m, 10°: 99.5
visual-localization-on-aachen-day-night-v1-1GIM-SuperGlue
Acc@0.25m, 2°: 78.0
Acc@0.5m, 5°: 90.6
Acc@5m, 10°: 100.0
visual-localization-on-aachen-day-night-v1-1GIM-LoFTR
Acc@0.25m, 2°: 79.1
Acc@0.5m, 5°: 91.6
Acc@5m, 10°: 100.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GIM:从互联网视频中学习泛化图像匹配器 | 论文 | HyperAI超神经