
摘要
我们介绍了一种基于传感器读数对的判别性多模态描述符:来自LiDAR的点云和来自RGB相机的图像。我们的描述符名为MinkLoc++,可用于机器人或自动驾驶汽车应用中的位置识别、重定位和闭环检测。我们采用了后期融合的方法,即每种模态分别进行处理,并在处理流水线的最后阶段进行融合。所提出的方法在标准的位置识别基准测试中达到了最先进的性能。此外,我们在训练多模态描述符时发现了主导模态问题。该问题表现为网络过度关注具有更大过拟合风险的模态,这虽然在训练过程中降低了损失,但在评估集上却导致了次优性能。在这项工作中,我们描述了如何在使用深度度量学习方法训练多模态神经网络时检测并缓解这种风险。我们的代码已在项目网站上公开提供:https://github.com/jac99/MinkLocMultimodal。
代码仓库
jac99/MinkLocMultimodal
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-place-recognition-on-cs-campus3d | Minkloc3Dv2 | AR@1: 67.06 AR@1 cross-source: 52.46 AR@1%: 76.68 AR@1% cross-source: 83.48 |
| visual-place-recognition-on-oxford-robotcar-1 | MinkLoc++ (LiDAR+RGB) | recall@top1: 96.7 recall@top1%: 99.1 |