3 个月前

多目标跟踪作为ID预测

多目标跟踪作为ID预测

摘要

多目标跟踪(Multi-Object Tracking, MOT)一直是视频理解领域长期面临的挑战。一种自然且直观的解决思路是将该任务分解为两个阶段:目标检测与目标关联。目前主流方法通常依赖精心设计的启发式技术来维护轨迹信息,并计算用于目标匹配的代价矩阵。尽管这些方法能够取得显著的跟踪性能,但在复杂场景下往往需要一系列复杂的手工调优,限制了其泛化能力。我们认为,人工预设的先验知识会制约模型从特定领域数据中学习最优跟踪能力的适应性与灵活性。为此,我们提出一种全新的视角:将多目标跟踪建模为一种“上下文ID预测”任务,从而将传统的目标关联过程转化为一个端到端可训练的任务。基于这一思想,我们提出了一种简单而高效的方法——MOTIP。该方法给定一组携带ID信息的轨迹,直接对当前检测结果解码出对应的ID标签,完成关联过程。与以往依赖复杂或定制化网络架构的方法不同,MOTIP仅利用目标级别的特征作为跟踪线索,无需额外设计复杂的结构,便在多个主流基准上取得了当前最优的性能。MOTIP方法的简洁性与卓越表现为后续研究留下了广阔的发展空间,展现出作为未来研究基准的巨大潜力。相关代码与模型检查点已开源,地址为:https://github.com/MCG-NJU/MOTIP。

代码仓库

MCG-NJU/MOTIP
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
multi-object-tracking-on-dancetrackMOTIP (DAB-Deformable DETR)
AssA: 60.8
DetA: 80.8
HOTA: 70.0
IDF1: 75.1
MOTA: 91.0
multi-object-tracking-on-dancetrackMOTIP (Deformable DETR, with CrowdHuman)
AssA: 62.8
DetA: 81.3
HOTA: 71.4
IDF1: 76.3
MOTA: 91.6
multi-object-tracking-on-dancetrackMOTIP (Deformable DETR, with DanceTrack val and CrowdHuman)
AssA: 65.9
DetA: 82.6
HOTA: 73.7
IDF1: 78.4
MOTA: 92.7
multi-object-tracking-on-dancetrackMOTIP (Deformable DETR)
AssA: 57.6
DetA: 79.4
HOTA: 67.5
IDF1: 72.2
MOTA: 90.3
multi-object-tracking-on-mot17MOTIP (Deformable-DETR)
HOTA: 59.2
e2e-MOT: Yes
multiple-object-tracking-on-sportsmotMOTIP (Deformable DETR, with SportsMOT val)
AssA: 65.4
DetA: 86.5
HOTA: 75.2
IDF1: 78.2
MOTA: 96.1
multiple-object-tracking-on-sportsmotMOTIP (Deformable DETR)
AssA: 62.0
DetA: 83.4
HOTA: 71.9
IDF1: 75.0
MOTA: 92.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多目标跟踪作为ID预测 | 论文 | HyperAI超神经