4 个月前

MiPa:混合补丁红外-可见光模态无关目标检测

MiPa:混合补丁红外-可见光模态无关目标检测

摘要

在实际场景中,使用多种模态(如可见光(RGB)和红外(IR))可以显著提高预测任务(例如目标检测(OD))的性能。多模态学习是一种常见的利用这些模态的方法,其中多个特定模态的编码器和一个融合模块被用于提升性能。本文探讨了一种不同的方法来使用RGB和IR模态,即仅通过单个共享视觉编码器观察其中一个或另一个模态。这种现实设置需要较低的内存占用,并且更适合于自动驾驶和监控等应用,这些应用通常依赖于RGB和IR数据。然而,在多个模态上训练单个编码器时,一个模态可能会主导另一个模态,导致识别结果不均衡。本研究调查了如何高效地利用RGB和IR模态来训练一个基于变压器的通用OD视觉编码器,同时对抗模态不平衡的影响。为此,我们引入了一种新的训练技术——混合补丁(Mix Patches, MiPa),结合了一个逐片模态无关模块,以学习两种模态的共同表示。实验结果显示,MiPa可以在推理过程中仅需一个模态的情况下,在传统的RGB/IR基准测试中达到具有竞争力的结果。我们的代码可在以下地址获取:https://github.com/heitorrapela/MiPa。

代码仓库

heitorrapela/mipa
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
multispectral-object-detection-on-flir-1MiPa
mAP: 44.8%
mAP50: 81.3%
object-detection-on-flirMiPa
AP 0.5: 0.813
object-detection-on-llvipMiPa
AP: 0.665
pedestrian-detection-on-llvipMiPa
AP: 0.665

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MiPa:混合补丁红外-可见光模态无关目标检测 | 论文 | HyperAI超神经