4 个月前

MixFormer: 基于迭代混合注意力的端到端跟踪

MixFormer: 基于迭代混合注意力的端到端跟踪

摘要

跟踪通常采用多阶段管道,包括特征提取、目标信息融合和边界框估计。为了简化这一流程并统一特征提取和目标信息融合的过程,我们提出了一种基于变压器(transformers)的紧凑跟踪框架,称为MixFormer。我们的核心设计是利用注意力操作的灵活性,并提出了一个混合注意力模块(Mixed Attention Module, MAM),用于同时进行特征提取和目标信息融合。这种同步建模方案能够提取特定于目标的判别特征,并在目标和搜索区域之间进行广泛的通信。基于MAM,我们通过堆叠多个MAM并逐步嵌入补丁,在顶部放置一个定位头来构建MixFormer跟踪框架。此外,为了在线跟踪过程中处理多个目标模板,我们在MAM中设计了一个非对称注意力方案以降低计算成本,并提出了一种有效的分数预测模块来选择高质量的模板。我们的MixFormer在五个跟踪基准测试中取得了新的最佳性能,这些基准测试包括LaSOT、TrackingNet、VOT2020、GOT-10k和UAV123。特别是,我们的MixFormer-L在LaSOT上达到了79.9%的NP得分,在TrackingNet上达到了88.9%的NP得分,在VOT2020上达到了0.555的EAO得分。我们还进行了深入的消融研究,以证明同时进行特征提取和信息融合的有效性。代码和训练模型已公开发布在https://github.com/MCG-NJU/MixFormer。

代码仓库

MCG-NJU/MixFormer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
semi-supervised-video-object-segmentation-on-15MixFormer-L
EAO: 0.555
video-object-tracking-on-nv-vot211Mixformer(ConvMAE)
AUC: 39.23
Precision: 54.20
visual-object-tracking-on-avistMixFormerL-22k
Success Rate: 56.0
visual-object-tracking-on-got-10kMixFormer-1k
Average Overlap: 71.2
Success Rate 0.5: 79.9
Success Rate 0.75: 65.8
visual-object-tracking-on-got-10kMixFormer
Average Overlap: 70.7
Success Rate 0.5: 80.0
Success Rate 0.75: 67.8
visual-object-tracking-on-got-10kMixFormer-L
Average Overlap: 75.6
Success Rate 0.5: 85.73
Success Rate 0.75: 72.8
visual-object-tracking-on-lasotMixFormer-L
AUC: 70.1
Normalized Precision: 79.9
Precision: 76.3
visual-object-tracking-on-trackingnetMixFormer-L
Accuracy: 83.9
Normalized Precision: 88.9
Precision: 83.1
visual-object-tracking-on-uav123MixFormer
AUC: 0.704
Precision: 0.918

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MixFormer: 基于迭代混合注意力的端到端跟踪 | 论文 | HyperAI超神经