3 个月前

MixFormer:基于迭代混合注意力的端到端跟踪

MixFormer:基于迭代混合注意力的端到端跟踪

摘要

视觉目标跟踪通常采用多阶段流水线,包括特征提取、目标信息融合以及边界框估计。为简化该流水线并统一特征提取与目标信息融合过程,本文提出一种基于Transformer的紧凑型跟踪框架——MixFormer。其核心设计在于利用注意力机制的灵活性,提出一种混合注意力模块(Mixed Attention Module, MAM),实现特征提取与目标信息融合的同步进行。该同步建模机制能够有效提取具有判别性的目标特征,并在目标区域与搜索区域之间实现充分的信息交互。基于MAM模块,我们通过堆叠多个MAM模块并在顶层添加定位头,构建了MixFormer跟踪器。具体而言,我们实现了两种类型的MixFormer跟踪器:一种为分层结构的MixCvT,另一种为非分层结构的MixViT。针对这两种跟踪器,我们系统研究了一系列预训练方法,并揭示了在MixFormer框架下,监督预训练与自监督预训练所表现出的不同行为特性。此外,我们将掩码预训练方法拓展至MixFormer框架,并设计了一种具有竞争力的TrackMAE预训练策略。为应对在线跟踪过程中多个目标模板带来的计算负担,我们在MAM中引入了一种非对称注意力机制,显著降低了计算开销;同时,提出一种高效的置信度预测模块,用于筛选高质量的模板。实验结果表明,所提出的MixFormer跟踪器在七个主流跟踪基准上均取得了新的最先进性能,涵盖LaSOT、TrackingNet、VOT2020、GOT-10k、OTB100和UAV123等数据集。特别地,我们的MixViT-L在LaSOT上达到73.3%的AUC得分,在TrackingNet上达到86.1%的AUC得分,在VOT2020上实现0.584的EAO得分,在GOT-10k上取得75.7%的AO得分。相关代码与训练好的模型已公开发布于:https://github.com/MCG-NJU/MixFormer。

代码仓库

MCG-NJU/MixFormer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
visual-object-tracking-on-got-10kMixViT-L(ConvMAE)
Average Overlap: 75.7
Success Rate 0.5: 85.3
Success Rate 0.75: 75.1
visual-object-tracking-on-lasotMixViT-L(ConvMAE)
AUC: 73.3
Normalized Precision: 82.8
Precision: 80.3
visual-object-tracking-on-trackingnetMixViT-L(ConvMAE)
Accuracy: 86.1
Normalized Precision: 90.3
Precision: 86.0
visual-object-tracking-on-vot2022MixFormerM
EAO: 0.589

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MixFormer:基于迭代混合注意力的端到端跟踪 | 论文 | HyperAI超神经