4 个月前

基于目标意识的长期上下文注意力跟踪

基于目标意识的长期上下文注意力跟踪

摘要

大多数深度跟踪器仍然遵循暹罗范式(Siamese paradigms)的指导,仅使用包含目标而不含任何上下文信息的模板,这使得跟踪器难以应对较大的外观变化、快速的目标移动以及相似物体的干扰。为了解决上述问题,我们提出了一种长期上下文注意力(Long-term Context Attention, LCA)模块,该模块能够在长时间帧中对目标及其上下文进行广泛的信息融合,并在增强目标特征的同时计算目标相关性。完整的上下文信息不仅包括目标的位置,还包括目标周围的环境状态。LCA利用前一帧中的目标状态来排除相似物体和复杂背景的干扰,从而准确地定位目标,提高跟踪器的鲁棒性和回归精度。通过将LCA模块嵌入Transformer中,我们构建了一个具有目标感知骨干网络的强大在线跟踪器,命名为TATrack。此外,我们还提出了一种基于历史信息分类置信度的动态在线更新算法,该算法不会增加额外的计算负担。我们的跟踪器在多个基准测试中取得了最先进的性能,在LaSOT、TrackingNet和GOT-10k上的AUC分别为71.1%,NP为89.3%,AO为73.0%。代码和训练模型可在https://github.com/hekaijie123/TATrack 获取。

代码仓库

hekaijie123/TATrack
官方
pytorch

基准测试

基准方法指标
video-object-tracking-on-got-10k-1TATrack-L-GOT
Average Overlap: 76.6
video-object-tracking-on-nv-vot211TATrack-L
AUC: 39.29
Precision: 53.94
visual-object-tracking-on-got-10kTATrack-L-GOT
Average Overlap: 76.6
Success Rate 0.5: 85.7
Success Rate 0.75: 73.4
visual-object-tracking-on-lasotTATrack-L
AUC: 71.1
Normalized Precision: 79.1
Precision: 76.1
visual-object-tracking-on-trackingnetTATrack-L
Accuracy: 85.0
Normalized Precision: 89.3
Precision: 84.5
visual-tracking-on-lasotTATrack-L
AUC: 71.1
visual-tracking-on-trackingnetTATrack-L
ACCURACY: 0.85
Normalized Precision: 89.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于目标意识的长期上下文注意力跟踪 | 论文 | HyperAI超神经