
摘要
在行人重识别领域,现有的深度网络通常专注于表示学习。然而,如果没有迁移学习,所学模型将固定不变,无法适应各种未见过的场景。本文不仅关注表示学习,还探讨了如何直接在深度特征图中构建行人图像匹配的方法。我们将图像匹配视为在特征图中寻找局部对应关系,并即时构建查询自适应卷积核以实现局部匹配。通过这种方式,匹配过程和结果具有可解释性,并且这种显式的匹配方法比表示特征更具泛化能力,能够应对未知的错位、姿态或视角变化等未见过的场景。为了促进该架构的端到端训练,我们进一步构建了一个类别记忆模块,用于缓存每个类别的最新样本的特征图,从而计算用于度量学习的图像匹配损失。通过直接跨数据集评估,所提出的查询自适应卷积(QAConv)方法相比流行的学习方法(mAP 提升约 10% 以上)取得了显著改进,并且其性能与许多迁移学习方法相当。此外,本文提出了一种无模型的时间共现加权评分方法 TLift,该方法进一步提升了性能,在跨数据集行人重识别任务中达到了最先进的水平。代码可在 https://github.com/ShengcaiLiao/QAConv 获取。
代码仓库
shengcailiao/QAConv
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| generalizable-person-re-identification-on-20 | QAConv | Market-1501-u003eRank1: 22.6 Market-1501-u003emAP: 7.0 |
| generalizable-person-re-identification-on-21 | QAConv | MSMT17-All-u003eRank-1: 72.6 MSMT17-All-u003emAP: 43.1 |
| generalizable-person-re-identification-on-22 | QAConv | MSMT17-All-u003eRank-1: 25.3 MSMT17-All-u003emAP: 22.6 Market-1501-u003eRank-1: 9.9 Market-1501-u003emAP: 8.6 |
| generalizable-person-re-identification-on-23 | QAConv | MSMT17-u003eRank1: 69.4 MSMT17-u003emAP: 52.6 |