
摘要
尽管图像检索与实例识别技术正在迅速发展,但仍亟需具有挑战性的数据集,以准确评估其性能,并引入与实际应用密切相关的新问题。为此,我们推出了谷歌地标数据集 v2(Google Landmarks Dataset v2,简称 GLDv2),这是一个面向人造与自然地标领域的大规模、细粒度实例识别与图像检索的新基准数据集。GLDv2 是迄今为止规模最大的同类数据集,包含超过 500 万张图像和 20 万个独立的实例标签。其测试集包含 11.8 万张图像,并为检索与识别任务均提供了真实标签(ground truth)。真实标签的构建耗时超过 800 小时的人工标注工作。我们的新数据集具有多个源于现实应用场景的挑战性特征,这些特征在以往的数据集中未曾被充分考虑:极长尾的类别分布、大量域外(out-of-domain)测试图像,以及类内显著的变异性。该数据集的图像全部来自 Wikimedia Commons——全球最大的众包地标图像集合。我们基于当前最先进的方法,为识别与检索任务提供了基线性能结果,并展示了来自公开挑战赛的具有竞争力的成果。此外,我们进一步验证了该数据集在迁移学习中的适用性:在 GLDv2 上训练得到的图像嵌入(image embeddings)在独立数据集上表现出具有竞争力的检索性能。该数据集的图像、真实标签及评估指标代码已公开,可访问 https://github.com/cvdfoundation/google-landmark。
代码仓库
Shiro-LK/python-DOLG
pytorch
GitHub 中提及
cvdfoundation/google-landmark
官方
tf
GitHub 中提及
tensorflow/models/tree/master/research/delf
tf
GitHub 中提及
csiro-robotics/Pair-VPR
pytorch
GitHub 中提及
Ash-Lee233/delf
mindspore
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-retrieval-on-google-landmarks-dataset | ResNet101+ArcFace GLDv2-train-clean | mAP@100: 24.15 |
| image-retrieval-on-google-landmarks-dataset-1 | ResNet101+ArcFace GLDv2-train-clean | mAP@100: 22.2 |
| image-retrieval-on-roxford-hard | ResNet101+ArcFace GLDv2-train-clean | mAP: 51.6 |
| image-retrieval-on-roxford-medium | ResNet101+ArcFace GLDv2-train-clean | mAP: 74.2 |
| image-retrieval-on-rparis-hard | ResNet101+ArcFace GLDv2-train-clean | mAP: 70.3 |
| image-retrieval-on-rparis-medium | ResNet101+ArcFace GLDv2-train-clean | mAP: 84.9 |