4 个月前

三维随机遮挡和多层投影在深度多相机行人定位中的应用

三维随机遮挡和多层投影在深度多相机行人定位中的应用

摘要

尽管基于深度学习的单目行人检测方法已经取得了显著进展,但它们在面对严重遮挡时仍然表现脆弱。利用多视图信息融合是一种潜在的解决方案,但由于现有多视图数据集中缺乏标注的训练样本,这种方法的应用范围受到了限制,增加了过拟合的风险。为了解决这一问题,提出了一种数据增强方法,该方法通过在地面上随机生成平均尺寸与行人相当的3D圆柱形遮挡物,并将其投影到多个视图中,以减轻训练过程中的过拟合影响。此外,每个视图的特征图通过使用同胚变换(homographies)被投影到不同高度的多个平行平面上,这使得卷积神经网络(CNNs)能够充分利用每个行人在高度方向上的特征来推断其在地面平面的位置。所提出的3DROM方法在性能上相比现有的最先进的多视图行人检测深度学习方法有了显著提升。

代码仓库

xjtlu-cvlab/3drom
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
multiview-detection-on-citystreet3DROM
F1_score (2m): 79.2
MODA (2m): 60.0
MODP (2m): 70.1
Precision (2m): 82.5
Recall (2m): 76.2
multiview-detection-on-cvcs3DROM
F1_score (1m): 55.1
MODA (1m): 33.9
MODP (1m): 73.9
Precision (1m): 79.5
Recall (1m): 42.2
multiview-detection-on-multiviewx3DROM
MODA: 90.0
MODP: 83.7
multiview-detection-on-wildtrack3DROM
MODA: 93.5
MODP: 75.9
Recall: 96.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
三维随机遮挡和多层投影在深度多相机行人定位中的应用 | 论文 | HyperAI超神经