3 个月前

Transformer 与追踪器的结合:利用时序上下文实现鲁棒的视觉追踪

Transformer 与追踪器的结合:利用时序上下文实现鲁棒的视觉追踪

摘要

在视频目标跟踪任务中,连续帧之间蕴含着丰富的时序上下文信息,然而现有跟踪器对此类时序依赖关系的利用仍显不足。本文通过引入基于Transformer的架构,将视频帧之间的时间上下文关系进行有效建模,从而实现鲁棒的目标跟踪。与自然语言处理任务中传统的Transformer用法不同,我们将其编码器与解码器分离为两个并行分支,并在类Siamese的跟踪框架中进行了精心设计。其中,Transformer编码器通过基于注意力机制的特征增强,有效提升目标模板的质量,有助于生成高质量的跟踪模型;而Transformer解码器则将前序模板中的跟踪线索传播至当前帧,显著优化了目标搜索过程。所提出的Transformer辅助跟踪框架结构简洁,支持端到端训练。得益于所设计的Transformer模块,仅采用简单的Siamese匹配策略即可超越当前最先进的跟踪算法。进一步地,将该Transformer模块与近期先进的判别式跟踪框架相结合,我们的方法在多个主流跟踪基准上取得了多项新的最先进性能记录。

代码仓库

594422814/TransformerTrack
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
object-tracking-on-coesotTrDiMP
Precision Rate: 66.9
Success Rate: 60.1
video-object-tracking-on-nv-vot211TrDiMP
AUC: 36.66
Precision: 50.68
visual-object-tracking-on-lasotTrDiMP
AUC: 63.7
Precision: 61.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Transformer 与追踪器的结合:利用时序上下文实现鲁棒的视觉追踪 | 论文 | HyperAI超神经