3 个月前

基于跨模态正交高秩增强的RGB-事件Transformer跟踪器

基于跨模态正交高秩增强的RGB-事件Transformer跟踪器

摘要

本文针对从RGB视频与事件数据中进行跨模态目标跟踪的问题展开研究。不同于构建复杂的跨模态融合网络,本文深入探索了预训练视觉Transformer(Vision Transformer, ViT)所蕴含的巨大潜力。具体而言,我们精心设计了一种即插即用的训练增强方法,旨在促使ViT有效弥合两种模态间巨大的分布差异,从而实现全面的跨模态信息交互,显著提升模型性能。为此,我们提出一种掩码建模策略:随机对部分token所属的特定模态进行掩码,强制不同模态间的token主动交互。为进一步缓解该掩码策略引发的网络震荡问题,并进一步强化其正向效果,我们从理论上提出了正交高秩损失(orthogonal high-rank loss),用于对注意力矩阵进行正则化。大量实验表明,所提出的即插即用训练增强技术能够显著提升当前主流的一流单流与双流跟踪器在跟踪精度与成功率方面的性能。本研究提出的新视角与发现,有望为利用强大预训练ViT建模跨模态数据这一领域提供重要启示。相关代码将公开发布。

代码仓库

zhu-zhiyu/nvs_solver
jax
GitHub 中提及
ZHU-Zhiyu/High-Rank_RGB-Event_Tracker
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
object-tracking-on-coesotHR-CEUTrack-Base
Precision Rate: 71.9
Success Rate: 63.2
object-tracking-on-coesotHR-CEUTrack-Large
Precision Rate: 73.8
Success Rate: 65.0
object-tracking-on-fe108HR-MonTrack-Tiny
Averaged Precision: 95.3
Success Rate: 66.3
object-tracking-on-fe108HR-MonTrack-Base
Averaged Precision: 96.2
Success Rate: 68.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于跨模态正交高秩增强的RGB-事件Transformer跟踪器 | 论文 | HyperAI超神经