4 个月前

多模态融合用于端到端RGB-T跟踪

多模态融合用于端到端RGB-T跟踪

摘要

我们提出了一种端到端的RGB-T跟踪框架,用于融合RGB(可见光)和TIR(热红外)模态。我们的基线跟踪器是DiMP(判别模型预测),该跟踪器采用了一个精心设计的目标预测网络,通过判别损失函数进行端到端训练。我们分析了在DiMP的主要组件中模态融合的有效性,这些组件包括特征提取器、目标估计网络和分类器。我们考虑了几种不同层次的融合机制,包括像素级、特征级和响应级融合。我们的跟踪器以端到端的方式进行训练,使各组件能够学习如何从两种模态中融合信息。为了训练我们的模型,我们生成了一个大规模的RGB-T数据集,该数据集基于一个带有注释的RGB跟踪数据集(GOT-10k),并通过图像到图像的翻译方法合成了配对的TIR图像。我们在VOT-RGBT2019数据集和RGBT210数据集上进行了广泛的实验,评估了每种模态融合机制在每个模型组件上的表现。结果表明,所提出的融合机制提高了单一模态对应方法的性能。当在IoU-Net和模型预测器上进行特征级融合时,我们在VOT-RGBT2019数据集上获得了0.391的EAO分数。通过这种融合机制,我们在RGBT210数据集上达到了最先进的性能。

代码仓库

zhanglichao/end2end_rgbt_tracking
pytorch
GitHub 中提及

基准测试

基准方法指标
rgb-t-tracking-on-lashermfDiMP
Precision: 44.7
Success: 34.3
rgb-t-tracking-on-rgbt210mfDiMP
Precision: 78.6
Success: 55.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多模态融合用于端到端RGB-T跟踪 | 论文 | HyperAI超神经