
摘要
我们利用大量未标记的视频来学习无需人工监督的视觉跟踪模型。通过利用颜色在时间上的自然连贯性,我们创建了一个模型,该模型能够通过从参考帧复制颜色来为灰度视频着色。定量和定性实验表明,这一任务促使模型自动学习跟踪视觉区域。尽管该模型是在没有任何真实标签的情况下训练的,但我们的方法已经能够学会足够好的跟踪技术,以超越基于光流的最新方法。此外,我们的结果还表明,跟踪失败与着色失败之间存在相关性,这表明推进视频着色技术可能会进一步改善自监督视觉跟踪的效果。
代码仓库
hyperparameters/tracking_via_colorization
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skeleton-based-action-recognition-on-jhmdb | ColorPointer | PCK@0.1: 45.2 PCK@0.2: 69.6 PCK@0.3: 80.8 PCK@0.4: 87.5 PCK@0.5: 91.4 |