
摘要
在实际场景中,使用多种模态(如可见光(RGB)和红外(IR))可以显著提高预测任务(例如目标检测(OD))的性能。多模态学习是一种常见的利用这些模态的方法,其中多个特定模态的编码器和一个融合模块被用于提升性能。本文探讨了一种不同的方法来使用RGB和IR模态,即仅通过单个共享视觉编码器观察其中一个或另一个模态。这种现实设置需要较低的内存占用,并且更适合于自动驾驶和监控等应用,这些应用通常依赖于RGB和IR数据。然而,在多个模态上训练单个编码器时,一个模态可能会主导另一个模态,导致识别结果不均衡。本研究调查了如何高效地利用RGB和IR模态来训练一个基于变压器的通用OD视觉编码器,同时对抗模态不平衡的影响。为此,我们引入了一种新的训练技术——混合补丁(Mix Patches, MiPa),结合了一个逐片模态无关模块,以学习两种模态的共同表示。实验结果显示,MiPa可以在推理过程中仅需一个模态的情况下,在传统的RGB/IR基准测试中达到具有竞争力的结果。我们的代码可在以下地址获取:https://github.com/heitorrapela/MiPa。
代码仓库
heitorrapela/mipa
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multispectral-object-detection-on-flir-1 | MiPa | mAP: 44.8% mAP50: 81.3% |
| object-detection-on-flir | MiPa | AP 0.5: 0.813 |
| object-detection-on-llvip | MiPa | AP: 0.665 |
| pedestrian-detection-on-llvip | MiPa | AP: 0.665 |