
摘要
近年来,Transformer 在计算机视觉领域受到了越来越多的关注。然而,现有的研究大多将 Transformer 用于特征表示学习,例如图像分类和密集预测,而 Transformer 的泛化能力尚不清楚。在本工作中,我们进一步探讨了将 Transformer 应用于图像匹配和度量学习的可能性,特别是在给定图像对的情况下。我们发现,Vision Transformer (ViT) 和带有解码器的普通 Transformer 由于缺乏图像到图像的注意力机制,不适合用于图像匹配。因此,我们设计了两种简单的解决方案,即在 ViT 中进行查询-库连接(query-gallery concatenation),以及在普通 Transformer 中引入查询-库交叉注意力(query-gallery cross-attention)。后者虽然提高了性能,但仍然有限。这表明 Transformer 中的注意力机制主要设计用于全局特征聚合,而不是天然适合图像匹配。相应地,我们提出了一种新的简化解码器,该解码器去除了带有 softmax 权重的全注意力实现,仅保留查询-键相似性计算。此外,还应用了全局最大池化和多层感知机(MLP)头来解码匹配结果。这样,简化后的解码器不仅计算效率更高,同时在图像匹配方面也更加有效。所提出的 TransMatcher 方法在可泛化的行人再识别任务中取得了最先进的性能,在多个流行数据集上的 Rank-1 和 mAP 指标分别最高提升了 6.1% 和 5.7%。代码可在 https://github.com/ShengcaiLiao/QAConv 获取。
代码仓库
ShengcaiLiao/TransMatcher
官方
pytorch
GitHub 中提及
shengcailiao/QAConv
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| generalizable-person-re-identification-on-20 | TransMatcher | ClonedPerson-u003eRank-1: 51.6 ClonedPerson-u003emAP: 20.8 Market-1501-u003eRank1: 47.3 Market-1501-u003emAP: 18.4 RandPerson-u003eRank-1: 48.3 RandPerson-u003emAP: 17.7 |
| generalizable-person-re-identification-on-21 | TransMatcher | ClonedPerson-u003eRank-1: 84.8 ClonedPerson-u003emAP: 62.3 MSMT17-u003eRank-1: 80.1 MSMT17-u003emAP: 52.0 MSMT17-All-u003eRank-1: 82.6 MSMT17-All-u003emAP: 58.4 RandPerson-u003eRank-1: 77.3 RandPerson-u003emAP: 49.1 |
| generalizable-person-re-identification-on-22 | TransMatcher | ClonedPerson-u003eRank-1: 25.4 ClonedPerson-u003emAP: 24.4 MSMT17-u003eRank-1: 23.7 MSMT17-u003emAP: 22.5 MSMT17-All-u003eRank-1: 31.9 MSMT17-All-u003emAP: 30.7 Market-1501-u003eRank-1: 22.2 Market-1501-u003emAP: 21.4 RandPerson-u003eRank-1: 17.1 RandPerson-u003emAP: 16.0 |