HyperAIHyperAI

Command Palette

Search for a command to run...

学习时空Transformer用于视觉跟踪

Bin Yan Houwen Peng Jianlong Fu Dong Wang Huchuan Lu

摘要

在本文中,我们提出了一种新的跟踪架构,其中编码器-解码器 Transformer (Transformer)作为关键组件。编码器建模了目标对象与搜索区域之间的全局时空特征依赖关系,而解码器则学习查询嵌入以预测目标对象的空间位置。我们的方法将目标跟踪视为一个直接的边界框预测问题,无需使用任何提议或预定义的锚点。通过编码器-解码器 Transformer ,对象预测仅使用一个简单的全卷积网络,该网络直接估计对象的角点。整个方法是端到端的,不需要任何后处理步骤,如余弦窗口和边界框平滑,从而大大简化了现有的跟踪流程。所提出的跟踪器在五个具有挑战性的短期和长期基准测试中达到了最先进的性能,并且以实时速度运行,比Siam R-CNN快6倍。代码和模型已开源,可在https://github.com/researchmm/Stark获取


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习时空Transformer用于视觉跟踪 | 论文 | HyperAI超神经