8 个月前

摘要

随着多模态传感器的普及，可见光-热红外（RGB-T）目标跟踪旨在通过利用物体的温度信息实现更稳健的性能和更广泛的应用场景。然而，缺乏配对的训练样本是解锁RGB-T跟踪潜力的主要瓶颈。由于收集高质量的RGB-T序列非常费力，现有的基准测试仅提供测试序列。在本文中，我们构建了一个具有高多样性的大规模可见光-热红外无人机跟踪（VTUAV）基准数据集，包含500个序列，共计170万帧对，每帧分辨率为1920×1080像素。此外，我们考虑了多种应用场景（短期跟踪、长期跟踪和分割掩码预测），涵盖不同类别和场景，以进行全面评估。我们还提供了从粗到细的属性注释，在帧级别上提供属性信息，以便挖掘特定挑战性跟踪器的潜力。另外，我们设计了一种新的RGB-T基线模型，称为层次多模态融合跟踪器（Hierarchical Multi-modal Fusion Tracker, HMFT），该模型在多个层面上融合了RGB-T数据。我们在多个数据集上进行了大量实验，揭示了HMFT的有效性和不同融合类型之间的互补性。该项目可在以下链接获取：[此处]。请注意：原文中的“here”通常是一个超链接或网址，在实际翻译中应替换为具体的链接地址。如果需要提供链接，请告知具体网址。

源 PDF