摘要

现有的视觉目标跟踪（Visual Object Tracking, VOT）方法仅将第一帧中的目标区域作为模板。这导致在快速变化和拥挤的场景中，跟踪不可避免地会失败，因为它无法应对帧间目标外观的变化。为此，我们重新设计了跟踪框架，提出了渐进上下文编码 Transformer 跟踪器（Progressive Context Encoding Transformer Tracker, ProContEXT），该跟踪器能够连贯地利用空间和时间上下文来预测目标运动轨迹。具体而言，ProContEXT 利用一个上下文感知的自注意力模块来编码空间和时间上下文，不断优化和更新多尺度静态和动态模板，从而逐步实现精确的跟踪。它探索了空间和时间上下文之间的互补性，为基于 Transformer 的跟踪器提出了一条新的多上下文建模路径。此外，ProContEXT 修订了令牌剪枝技术以降低计算复杂度。在 GOT-10k 和 TrackingNet 等流行基准数据集上的大量实验表明，所提出的 ProContEXT 达到了最先进的性能。

源 PDF