4 个月前

学习时空Transformer用于视觉跟踪

学习时空Transformer用于视觉跟踪

摘要

在本文中,我们提出了一种新的跟踪架构,其中编码器-解码器变压器(Transformer)作为关键组件。编码器建模了目标对象与搜索区域之间的全局时空特征依赖关系,而解码器则学习查询嵌入以预测目标对象的空间位置。我们的方法将目标跟踪视为一个直接的边界框预测问题,无需使用任何提议或预定义的锚点。通过编码器-解码器变压器,对象预测仅使用一个简单的全卷积网络,该网络直接估计对象的角点。整个方法是端到端的,不需要任何后处理步骤,如余弦窗口和边界框平滑,从而大大简化了现有的跟踪流程。所提出的跟踪器在五个具有挑战性的短期和长期基准测试中达到了最先进的性能,并且以实时速度运行,比Siam R-CNN快6倍。代码和模型已开源,可在https://github.com/researchmm/Stark获取。

代码仓库

researchmm/Stark
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-object-tracking-on-nv-vot211STARK
AUC: 38.26
Precision: 51.37
visual-object-tracking-on-avistSTARK-ST-101
Success Rate: 50.50
visual-object-tracking-on-got-10kSTARK
Average Overlap: 68.8
Success Rate 0.5: 78.1
visual-object-tracking-on-lasotSTARK
AUC: 67.1
Normalized Precision: 77.0
visual-object-tracking-on-trackingnetSTARK
Accuracy: 82.0
Normalized Precision: 86.9
Precision: 79.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习时空Transformer用于视觉跟踪 | 论文 | HyperAI超神经