
摘要
本文研究了从RGB图像中检测未见物体并估计其三维姿态的问题。为此,我们提出了两种面向移动设备优化的网络结构:MobilePose-Base与MobilePose-Shape。前者适用于仅有姿态监督的场景,后者则针对存在形状监督(即使为弱监督)的情况。我们重新审视了以往方法中使用的形状特征,包括分割图与坐标图。我们阐明了在何种条件下以及为何像素级形状监督能够提升姿态估计的性能。基于此,我们在MobilePose-Shape中引入形状预测作为中间层,使网络能够通过形状信息学习姿态。我们的模型在混合的真实与合成数据上进行训练,采用弱监督且带有噪声的形状标签。模型极其轻量化,可在现代移动设备上实现实时运行(例如在Galaxy S20上达到36 FPS)。与以往的单阶段方法相比,本方法在显著减小模型规模(模型大小或参数量减少2%~3%)的同时,仍实现了更高的精度。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-3d-object-detection-on-google | MobilePose | AP at 10' Elevation error: 0.6658 AP at 15' Azimuth error: 0.5088 Average Precision at 0.5 3D IoU: 0.4624 MPE: 0.1001 |