
摘要
在拥挤视频序列中跟踪人类是视觉场景理解的重要组成部分。随着人群密度的增加,人类的可见性受到挑战,限制了现有行人跟踪器在更高人群密度下的可扩展性。为此,我们提出重新激活头部跟踪,并引入了一个名为“头部群体数据集”(Crowd of Heads Dataset, CroHD)的新数据集,该数据集包含9个序列共11,463帧,标注了超过2,276,838个头部和5,230条轨迹,涵盖了多种场景。为了评估性能,我们提出了一种新的度量指标——IDEucl,用于测量算法在图像坐标空间中保持唯一身份的最长时间段,从而建立了行人运动与跟踪算法性能之间的对应关系。此外,我们还提出了一种新的头部检测器——HeadHunter,专门设计用于在拥挤场景中检测小头部。我们将HeadHunter与粒子滤波器和基于颜色直方图的再识别模块相结合,以实现头部跟踪。为了建立一个强大的基线模型,我们在CroHD数据集上将我们的跟踪器与现有的最先进的行人跟踪器进行了比较,并展示了其优越性,特别是在身份保持跟踪指标方面。凭借轻量级的头部检测器和高效的身份保持跟踪器,我们相信我们的贡献将在密集人群中的行人跟踪研究中发挥重要作用。
代码仓库
Sentient07/HeadHunter-T
pytorch
TranThienDat-Nguyen/VisionEvaluation
GitHub 中提及
Sentient07/HeadHunter--T
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multiple-object-tracking-on-crohd | HeadHunter-T | IDEucl: 60.3 IDF1: 57.1 IDs: 892 ML: 93 MOTA: 63.6 MT: 146 |
| multiple-object-tracking-on-crohd | Tracktor | IDEucl: 31.8 IDF1: 38.5 IDs: 3474 ML: 117 MOTA: 58.9 MT: 125 |
| multiple-object-tracking-on-crohd | SORT | IDEucl: 58 IDF1: 48.4 IDs: 649 ML: 216 MOTA: 46.4 MT: 49 |