4 个月前

通过视觉提示改进视觉目标跟踪

通过视觉提示改进视觉目标跟踪

摘要

在通用视觉目标跟踪中,学习一个判别模型以区分目标与其周围干扰物是至关重要的。由于现有跟踪器的判别能力有限,动态适应目标表示以对抗干扰物具有挑战性。为了解决这一问题,我们提出了一种新的用于通用视觉目标跟踪的视觉提示机制(PiVOT)。PiVOT引入了一个基于预训练基础模型CLIP的提示生成网络,能够自动生成并优化视觉提示,从而实现基础模型知识向跟踪任务的迁移。虽然CLIP提供了广泛的类别级知识,但通过实例特定数据训练的跟踪器在识别独特的目标实例方面表现出色。因此,PiVOT首先生成一个突出潜在目标位置的视觉提示。为了将CLIP的知识迁移到跟踪器中,PiVOT利用CLIP根据候选对象与参考模板之间的相似性来优化视觉提示,从而更好地突出潜在目标位置,减少无关提示信息。通过所提出的提示机制,跟踪器可以在视觉提示的引导下生成改进的实例感知特征图,从而有效减少干扰物的影响。该方法在训练过程中不涉及CLIP,因此保持了相同的训练复杂度,并保留了预训练基础模型的泛化能力。多项基准测试表明,使用所提出的提示方法的PiVOT可以抑制干扰物体并增强跟踪器的效果。

代码仓库

chenshihfang/GOT
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-object-tracking-on-avistPiVOT-L
Success Rate: 62.2
visual-object-tracking-on-lasotPiVOT-L
AUC: 73.4
Normalized Precision: 84.7
Precision: 82.1
visual-object-tracking-on-needforspeedPiVOT-L
AUC: 0.682
visual-object-tracking-on-otb-2015PiVOT-L
AUC: 0.712
Precision: 0.946

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过视觉提示改进视觉目标跟踪 | 论文 | HyperAI超神经