4 个月前

CubifAE-3D:基于单目相机空间立方化的自动编码器三维目标检测

CubifAE-3D:基于单目相机空间立方化的自动编码器三维目标检测

摘要

我们介绍了一种使用单目图像进行三维物体检测的方法。从合成数据集开始,我们预先训练了一个RGB到深度的自编码器(Auto-Encoder, AE)。通过该自编码器学习到的嵌入表示,随后用于训练一个三维物体检测器(3D Object Detector, 3DOD)卷积神经网络(CNN),该网络在自编码器生成RGB图像的潜在嵌入后,回归三维物体姿态的参数。我们展示了可以使用来自模拟数据的配对RGB和深度图像一次性预训练AE,之后仅使用真实数据(包括RGB图像和三维物体姿态标签,无需密集深度信息)来训练3DOD网络。我们的3DOD网络利用了围绕相机的三维空间的一种特定“立方体化”方法,每个立方体负责预测N个物体的姿态及其类别和置信度值。AE的预训练以及这种将相机周围的三维空间划分为立方体的方法赋予了我们的方法名称——CubifAE-3D。我们在自动驾驶汽车(Autonomous Vehicle, AV)应用场景中,使用Virtual KITTI 2和KITTI数据集展示了单目三维物体检测的结果。

基准测试

基准方法指标
monocular-3d-object-detection-on-kittiCubifAE-3D
AP Medium: 5.43
monocular-3d-object-detection-on-kitti-1CubifAE-3D
AP Hard: 4.82
monocular-3d-object-detection-on-kitti-carsCubifAE-3D
AP Medium: 7.94
monocular-3d-object-detection-on-kitti-cars-1CubifAE-3D
AP Hard: 6.42
monocular-3d-object-detection-on-virtualCubifAE-3D
mAP@0.3: 86.6
mAP@0.5: 66.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CubifAE-3D:基于单目相机空间立方化的自动编码器三维目标检测 | 论文 | HyperAI超神经