3 个月前

TrackFormer:基于Transformer的多目标跟踪

TrackFormer:基于Transformer的多目标跟踪

摘要

多目标跟踪(Multi-Object Tracking, MOT)是一项极具挑战性的任务,需要对轨迹初始化、目标身份以及时空轨迹进行联合推理。本文将该任务建模为帧间集合预测问题,并提出TrackFormer——一种基于编码器-解码器Transformer架构的端到端可训练多目标跟踪方法。通过注意力机制,模型在视频序列中演化一组轨迹预测,实现帧间的数据关联。Transformer解码器利用静态的目标查询初始化新轨迹,并通过概念新颖且保持身份一致性的轨迹查询,以自回归方式在时空维度上持续追踪已有目标。两类查询均受益于全局帧级特征的自注意力及编码器-解码器注意力机制,从而无需额外的图优化,也无需显式建模运动或外观特征。TrackFormer提出了一种基于注意力机制的新一代跟踪范式,尽管其设计简洁,却在多目标跟踪(MOT17和MOT20数据集)与多目标分割(MOTS20数据集)任务上均达到了当前最优性能。代码已开源,地址为:https://github.com/timmeinhardt/trackformer。

代码仓库

acaelles97/devis
pytorch
GitHub 中提及
timmeinhardt/trackformer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
multi-object-tracking-on-mot17TrackFormer
IDF1: 68.0
MOTA: 74.1
e2e-MOT: Yes
multi-object-tracking-on-mots20TrackFormer
sMOTSA: 54.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TrackFormer:基于Transformer的多目标跟踪 | 论文 | HyperAI超神经