4 个月前

探索增强上下文信息在视频级目标跟踪中的应用

探索增强上下文信息在视频级目标跟踪中的应用

摘要

视频级别的上下文信息在视觉目标跟踪中变得越来越重要。然而,现有的方法通常仅使用少数几个标记来传递这些信息,这可能导致信息丢失并限制其全面捕捉上下文的能力。为了解决这一问题,我们提出了一种新的视频级别视觉目标跟踪框架,称为MCITrack。该框架利用Mamba的隐藏状态,持续记录并传输整个视频流中的大量上下文信息,从而实现更稳健的目标跟踪。MCITrack的核心组件是上下文信息融合模块,该模块由Mamba层和交叉注意力层组成。Mamba层存储历史上下文信息,而交叉注意力层将这些信息整合到每个骨干块的当前视觉特征中。通过与骨干网络的深度集成,该模块增强了模型在多个层次上捕捉和利用上下文信息的能力。实验结果表明,MCITrack在多个基准测试中表现出色。例如,在LaSOT数据集上实现了76.6%的AUC(Area Under Curve),在GOT-10k数据集上实现了80.0%的AO(Average Overlap),确立了新的最先进性能。代码和模型可在https://github.com/kangben258/MCITrack 获取。

代码仓库

kangben258/MCITrack
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semi-supervised-video-object-segmentation-on-15MCITrack-L384
EAO: 0.624
semi-supervised-video-object-segmentation-on-15MCITrack-B224
EAO: 0.619
video-object-tracking-on-nv-vot211MCITrack_L384
AUC: 41.50
Precision: 54.20
visual-object-tracking-on-got-10kMCITrack-B224
Average Overlap: 77.9
Success Rate 0.5: 88.2
Success Rate 0.75: 76.8
visual-object-tracking-on-got-10kMCITrack-L384
Average Overlap: 80.0
Success Rate 0.5: 88.5
Success Rate 0.75: 80.2
visual-object-tracking-on-lasotMCITrack-L384
AUC: 76.6
Normalized Precision: 86.1
Precision: 85.0
visual-object-tracking-on-lasotMCITrack-B224
AUC: 75.3
Normalized Precision: 85.6
Precision: 83.3
visual-object-tracking-on-lasot-extMCITrack-L384
AUC: 55.7
Normalized Precision: 66.5
Precision: 62.9
visual-object-tracking-on-lasot-extMCITrack-B224
AUC: 54.6
Normalized Precision: 65.7
Precision: 62.1
visual-object-tracking-on-tnl2kMCITrack-B224
AUC: 62.9
visual-object-tracking-on-tnl2kMCITrack-L384
AUC: 65.3
visual-object-tracking-on-trackingnetMCITrack-B224
Accuracy: 86.3
Normalized Precision: 90.9
Precision: 86.1
visual-object-tracking-on-trackingnetMCITrack-L384
Accuracy: 87.9
Normalized Precision: 92.1
Precision: 89.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
探索增强上下文信息在视频级目标跟踪中的应用 | 论文 | HyperAI超神经