
摘要
我们提出了一种适用于大规模图像检索的注意力局部特征描述符,称为DELF(DEep Local Feature)。该新特征描述符基于卷积神经网络,仅使用地标图像数据集上的图像级注释进行训练。为了识别对图像检索有语义价值的局部特征,我们还提出了一种用于关键点选择的注意力机制,该机制与描述符共享大部分网络层。此框架可以作为其他关键点检测器和描述符的即插即用替代方案,用于图像检索,从而实现更精确的特征匹配和几何验证。我们的系统生成可靠的置信度分数以拒绝误报——特别是对于数据库中没有正确匹配项的查询具有较强的鲁棒性。为了评估所提出的描述符,我们引入了一个新的大规模数据集,称为Google-Landmarks数据集,该数据集在数据库和查询方面均存在挑战,如背景杂乱、部分遮挡、多个地标、不同尺度的对象等。我们展示了DELF在大规模场景下显著优于最先进的全局和局部描述符。代码和数据集可以在项目网页上找到:https://github.com/tensorflow/models/tree/master/research/delf 。
代码仓库
insikk/delf_enhanced
tf
GitHub 中提及
tensorflow/models/tree/master/research/delf
tf
GitHub 中提及
jandaldrop/landmark-recognition-challenge
tf
GitHub 中提及
qianlinjun/delf-pytorch
pytorch
GitHub 中提及
Ash-Lee233/delf
mindspore
GitHub 中提及
nashory/DeLF-pytorch
pytorch
GitHub 中提及
pandigreat/DELF
pytorch
GitHub 中提及
kingcong/delf
mindspore
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-retrieval-on-oxf105k | DELF+FT+ATT+DIR+QE | MAP: 88.5% |
| image-retrieval-on-oxf105k | DELF+FT+ATT | MAP: 82.6% |
| image-retrieval-on-oxf5k | DELF+FT+ATT | MAP: 83.8% |
| image-retrieval-on-oxf5k | DELF+FT+ATT+DIR+QE | MAP: 90.0% |
| image-retrieval-on-par106k | DELF+FT+ATT+DIR+QE | mAP: 92.8% |
| image-retrieval-on-par106k | DELF+FT+ATT | mAP: 81.7% |
| image-retrieval-on-par6k | DELF+FT+ATT+DIR+QE | mAP: 95.7% |
| image-retrieval-on-par6k | DELF+FT+ATT | mAP: 85.0% |
| image-retrieval-on-roxford-hard | DELF–ASMK*+SP | mAP: 43.1 |
| image-retrieval-on-roxford-hard | DELF–HQE+SP | mAP: 50.3 |
| image-retrieval-on-roxford-medium | DELF–ASMK*+SP | mAP: 67.8 |
| image-retrieval-on-roxford-medium | DELF–HQE+SP | mAP: 73.4 |
| image-retrieval-on-rparis-hard | DELF–ASMK*+SP | mAP: 55.4 |
| image-retrieval-on-rparis-hard | DELF–HQE+SP | mAP: 69.3 |
| image-retrieval-on-rparis-medium | DELF–ASMK*+SP | mAP: 76.9 |
| image-retrieval-on-rparis-medium | DELF–HQE+SP | mAP: 84.0 |