4 个月前

中间融合与多阶段、多形式提示用于鲁棒RGB-T跟踪

中间融合与多阶段、多形式提示用于鲁棒RGB-T跟踪

摘要

RGB-T 跟踪作为目标跟踪的一个重要下游任务,在近年来取得了显著进展。然而,它仍然面临两个主要挑战:1)性能与效率之间的权衡;2)训练数据的稀缺性。为了应对后者挑战,一些最近的方法采用了提示(prompts)来微调预训练的 RGB 跟踪模型,并以参数高效的方式利用上游知识。然而,这些方法未能充分探索模态无关模式,并且忽视了在开放场景中不同模态的动态可靠性。我们提出了一种新的 RGB-T 提示跟踪方法——M3PT,该方法通过中间融合和多模态、多阶段视觉提示来克服这些挑战。我们率先在 RGB-T 跟踪中引入了可调中间融合元框架,这有助于跟踪器在性能与效率之间取得平衡,以满足各种应用需求。此外,基于该元框架,我们采用了多种灵活的提示策略,使预训练模型能够全面探索单模态模式并改进在不同模态优先场景下的融合模态特征建模,从而挖掘提示学习在 RGB-T 跟踪中的潜力。我们在 6 个现有的具有挑战性的基准数据集上进行了评估,结果表明我们的方法不仅超越了之前的最先进的提示微调方法,而且在仅使用 0.34M 微调参数的情况下仍保持了对优秀全参数微调方法的强大竞争力。

基准测试

基准方法指标
rgb-t-tracking-on-lasherM3PT
Precision: 67.3
Success: 54.2
rgb-t-tracking-on-rgbt210M3PT
Precision: 83.9
Success: 60.8
rgb-t-tracking-on-rgbt234M3PT
Precision: 85.9
Success: 63.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
中间融合与多阶段、多形式提示用于鲁棒RGB-T跟踪 | 论文 | HyperAI超神经