
摘要
多目标跟踪(MOT)作为计算机视觉领域的一个关键且极具前景的分支,近年来得到了广泛关注。传统的封闭词汇表多目标跟踪(CV-MOT)方法旨在跟踪预定义类别的对象。最近,一些开放词汇表多目标跟踪(OV-MOT)方法成功解决了未知类别对象的跟踪问题。然而,我们发现CV-MOT和OV-MOT方法各自在对方的任务中难以表现出色。在本文中,我们提出了一种统一框架——检测到的一切关联(AED),该框架通过集成任何现成的检测器同时解决CV-MOT和OV-MOT问题,并支持未知类别。与现有的基于检测的MOT方法不同,AED摒弃了先验知识(如运动线索),完全依赖于高度鲁棒的特征学习来处理OV-MOT任务中的复杂轨迹,同时在CV-MOT任务中保持优异性能。具体而言,我们将关联任务建模为相似度解码问题,并提出了一种以关联为中心的学习机制的相似度解码器(sim-decoder)。该相似度解码器从三个方面计算相似度:空间、时间和跨片段。随后,以关联为中心的学习机制利用这三方面的相似度,确保提取的特征适合连续跟踪,并且足够鲁棒以推广到未知类别。与现有的强大OV-MOT和CV-MOT方法相比,AED在TAO、SportsMOT和DanceTrack数据集上无需任何先验知识即可实现优越性能。我们的代码已开源,可访问https://github.com/balabooooo/AED获取。
代码仓库
balabooooo/aed
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-object-tracking-on-dancetrack | AED | AssA: 54.3 DetA: 82.0 HOTA: 66.6 IDF1: 69.7 MOTA: 92.2 |
| multi-object-tracking-on-sportsmot | AED | AssA: 70.1 DetA: 89.4 HOTA: 79.1 IDF1: 81.8 MOTA: 97.1 |
| multi-object-tracking-on-tao | AED (RegionCLIP) | AssocA: 38.1 ClsA: 16.2 LocA: 56.7 TETA: 37.0 |
| multi-object-tracking-on-tao | AED (Co-DETR) | AssocA: 52.4 ClsA: 41.7 LocA: 71.8 TETA: 55.3 |
| multiple-object-tracking-on-sportsmot | AED | AssA: 70.1 DetA: 89.4 HOTA: 79.1 IDF1: 81.8 MOTA: 97.1 |