8 个月前

摘要

在行人重识别领域，现有的深度网络通常专注于表示学习。然而，如果没有迁移学习，所学模型将固定不变，无法适应各种未见过的场景。本文不仅关注表示学习，还探讨了如何直接在深度特征图中构建行人图像匹配的方法。我们将图像匹配视为在特征图中寻找局部对应关系，并即时构建查询自适应卷积核以实现局部匹配。通过这种方式，匹配过程和结果具有可解释性，并且这种显式的匹配方法比表示特征更具泛化能力，能够应对未知的错位、姿态或视角变化等未见过的场景。为了促进该架构的端到端训练，我们进一步构建了一个类别记忆模块，用于缓存每个类别的最新样本的特征图，从而计算用于度量学习的图像匹配损失。通过直接跨数据集评估，所提出的查询自适应卷积（QAConv）方法相比流行的学习方法（mAP 提升约 10% 以上）取得了显著改进，并且其性能与许多迁移学习方法相当。此外，本文提出了一种无模型的时间共现加权评分方法 TLift，该方法进一步提升了性能，在跨数据集行人重识别任务中达到了最先进的水平。代码可在 https://github.com/ShengcaiLiao/QAConv 获取。

源 PDF 查看代码