
摘要
最近的研究表明,使用合成数据集训练的模型在可泛化的人体再识别(GPReID)任务中表现出比使用公开真实世界数据集训练的模型更好的性能。另一方面,由于真实世界人体再识别数据集的局限性,使用大规模合成数据集作为测试集来评估人体再识别算法也变得重要且有趣。然而,这引发了一个关键问题:合成数据集是否可靠用于评估可泛化的人体再识别?目前文献中尚无证据支持这一点。为了解决这一问题,我们设计了一种称为成对排序分析(Pairwise Ranking Analysis, PRA)的方法,以定量测量不同数据集中算法排名的相似性,并进行同分布的统计检验。具体而言,我们使用肯德尔等级相关系数(Kendall rank correlation coefficients)来评估不同数据集中算法排名之间的成对相似值。然后,通过非参数两样本柯尔莫哥洛夫-斯米尔诺夫(Kolmogorov-Smirnov, KS)检验来判断合成数据集与真实世界数据集之间以及仅在真实世界数据集之间的算法排名相关性是否属于同一分布。我们进行了全面的实验,涉及十种代表性算法、三个流行的真实世界人体再识别数据集和三个最近发布的大规模合成数据集。通过设计的成对排序分析和全面评估,我们得出结论:最近发布的大型合成数据集ClonedPerson可以可靠地用于评估GPReID,其统计结果与真实世界数据集相同。因此,本研究保证了可以在源训练集和目标测试集中完全使用合成数据集,而无需担心来自真实世界监控数据的隐私问题。此外,本文的研究还可能启发未来合成数据集的设计。
代码仓库
shengcailiao/QAConv
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| generalizable-person-re-identification-on-19 | TransMatcher | MSMT17-u003eRank-1: 51.8 MSMT17-u003emAP: 9.0 Market-1501-u003eRank-1: 50.1 Market-1501-u003emAP: 9.2 RandPerson-u003eRank-1: 67.8 RandPerson-u003emAP: 22.1 |