4 个月前

弥合端到端与非端到端多目标跟踪之间的差距

弥合端到端与非端到端多目标跟踪之间的差距

摘要

现有的端到端多目标跟踪(e2e-MOT)方法尚未超越非端到端的检测跟踪方法。一个潜在的原因是在训练过程中其标签分配策略始终将被跟踪对象与跟踪查询绑定,然后将少数新出现的对象分配给检测查询。通过一对一的二分匹配,这种分配会导致训练不平衡,即检测查询的正样本稀缺,特别是在封闭场景中,因为大多数新出现的对象在视频开始时就登场了。因此,与其它检测跟踪方法相比,e2e-MOT 更容易产生没有更新或重新初始化的跟踪终端。为了解决这一问题,我们提出了 Co-MOT,这是一种简单而有效的方法,通过引入一种新颖的合作竞争标签分配策略和影子概念来促进 e2e-MOT 的发展。具体而言,在为中间解码器训练进行标签分配时,我们将被跟踪对象添加到检测查询的匹配目标中。对于查询初始化,我们通过一组有限干扰的影子副本扩展每个查询。经过广泛的消融实验,Co-MOT 在不增加额外成本的情况下实现了卓越的性能,例如在 DanceTrack 数据集上达到 69.4% 的 HOTA 分数,在 BDD100K 数据集上达到 52.8% 的 TETA 分数。令人印象深刻的是,Co-MOT 只需 MOTRv2 的 38% 浮点运算量即可实现类似的性能,从而使得推理速度提高了 1.4 倍。

代码仓库

bingfengyan/visam
pytorch
GitHub 中提及
BingfengYan/CO-MOT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
multi-object-tracking-on-bdd100kCO-MOT
AssocA: 56.2
ClsA: 63.6
LocA: 38.7
TETA: 52.8
multi-object-tracking-on-dancetrackCO-MOT
AssA: 58.9
DetA: 82.1
HOTA: 69.4
IDF1: 71.9
MOTA: 91.2
multi-object-tracking-on-mot17CO-MOT
AssA: 60.6
DetA: 59.5
HOTA: 60.1
IDF1: 72.7
MOTA: 72.6
e2e-MOT: Yes
video-object-tracking-on-soccernet-v2CO-MOT
HOTA: 69.54

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
弥合端到端与非端到端多目标跟踪之间的差距 | 论文 | HyperAI超神经