4 个月前

当行人检测遇到多模态学习:通用模型与基准数据集

当行人检测遇到多模态学习:通用模型与基准数据集

摘要

近年来,行人检测领域的研究越来越多地关注利用不同传感器模态(如RGB、红外、深度、激光雷达和事件)的优势。然而,设计一个能够有效处理多种传感器模态的统一通用模型仍然是一个挑战。本文介绍了一种新型的多模态感知通用模型——MMPedestron。与以往只能处理一种或一对特定模态输入的专业模型不同,MMPedestron能够处理多个模态输入及其动态组合。该方法包括一个用于模态表示和融合的统一编码器以及一个用于行人检测的通用头部模块。我们引入了两个额外的可学习令牌,即自适应多模态特征融合(MAA和MAF),以实现自适应多模态特征融合。此外,我们构建了MMPD数据集,这是首个大规模的多模态行人检测基准数据集。该基准数据集整合了现有的公开数据集,并包含了一个新收集的数据集EventPed,涵盖了广泛的传感器模态,包括RGB、红外、深度、激光雷达和事件数据。通过多模态联合训练,我们的模型在多个行人检测基准上达到了最先进的性能,超越了为特定传感器模态定制的领先模型。例如,在COCO-Persons数据集上实现了71.1 AP,在LLVIP数据集上实现了72.6 AP。值得注意的是,我们的模型在CrowdHuman数据集上的性能与InternImage-H模型相当,但参数量仅为后者的三十分之一。代码和数据可在https://github.com/BubblyYi/MMPedestron获取。

代码仓库

BubblyYi/MMPedestron
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
multispectral-object-detection-on-flir-1MMPedestron
mAP50: 86.4%
object-detection-on-crowdhuman-full-bodyMMPedestron
AP: 97.1
mMR: 30.8
object-detection-on-eventpedMMPedestron
AP: 79.0
object-detection-on-inoutdoorMMPedestron
AP: 65.7
object-detection-on-stcrowdMMPedestron
AP: 74.9
pedestrian-detection-on-llvipMMPedestron
AP: 0.726
pedestrian-detection-on-mmpd-datasetMMPedestron
box mAP: 79.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
当行人检测遇到多模态学习:通用模型与基准数据集 | 论文 | HyperAI超神经