
摘要
当前的多目标跟踪(Multiple Object Tracking, MOT)方法主要依赖于检测结果在时空上的连续性,并结合目标外观特征来匹配连续帧中的目标。在本工作中,我们提出一种以目标外观特征作为视频中目标关联主要依据的MOT方法,同时将空间与时间先验信息作为加权因子。我们通过利用“在时间上相近的目标实例在外观上应具有相似性”这一思想,构建初始轨迹片段(tracklets);随后,采用分层融合的方式将这些轨迹片段整合,形成最终的目标跟踪轨迹。我们在三个不同的MOT基准数据集(MOT17、MOT20和DanceTrack)上进行了大量实验,结果表明,该方法在MOT17和MOT20上表现具有竞争力,并在DanceTrack数据集上取得了当前最优(state-of-the-art)的性能。
代码仓库
nii-satoh-lab/mot_fcg
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-object-tracking-on-dancetrack | FCG | AssA: 29.9 DetA: 79.8 HOTA: 48.7 IDF1: 46.5 MOTA: 89.9 |
| multi-object-tracking-on-mot17 | FCG | HOTA: 62.6 IDF1: 77.7 MOTA: 76.7 |
| multi-object-tracking-on-mot20-1 | FCG | HOTA: 57.3 IDF1: 69.7 MOTA: 68.0 |