
摘要
在计算机视觉中,跟踪视频中的感兴趣对象是最受欢迎且应用最广泛的问题之一。然而,随着时间的推移,各种应用场景和基准测试的激增导致该问题被分割为多种不同的实验设置。因此,文献也变得碎片化,现在社区提出的新方法通常仅针对某一特定设置进行专门化。为了了解这种专门化的必要程度,在本研究中我们提出了 UniTrack,这是一种在同一框架内解决五个不同任务的方案。UniTrack 包含一个单一且与任务无关的外观模型,该模型可以以监督或自监督的方式进行学习,并且有多个“头部”(heads)来处理单独的任务,而这些“头部”不需要训练。我们展示了大多数跟踪任务如何在这个框架内得到解决,并且相同的外观模型可以成功用于获得与大多数考虑的任务的专业方法具有竞争力的结果。此外,该框架还使我们能够分析通过最新的自监督方法获得的外观模型,从而将其评估和比较扩展到更多种类的重要问题上。
代码仓库
Zhongdao/UniTrack
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-object-tracking-on-mot16 | UniTrack | IDF1: 71.8 IDs: 683 MOTA: 74.7 |
| multi-object-tracking-on-mots20 | UniTrack | IDF1: 67.2 IDs: 622 sMOTSA: 68.9 |
| pose-estimation-on-j-hmdb | UniTrack_i18 | Mean PCK@0.1: 58.3 Mean PCK@0.2: 80.5 |
| pose-tracking-on-posetrack2018 | UniTrack | IDF1: 73.2 IDs: 6760 MOTA: 63.5 |
| video-instance-segmentation-on-youtube-vis-1 | UniTrack | mask AP: 30.1 |
| video-object-segmentation-on-davis-2017 | UniTrack | mIoU: 58.4 |
| visual-object-tracking-on-otb-2015 | UniTrack_DCF | AUC: 0.618 |