
摘要
本文提出了一种从单张RGB图像中估计物体连续六自由度(6-DoF)姿态(3D平移和旋转)的新方法。该方法结合了卷积网络(ConvNet)预测的语义关键点和可变形形状模型。与以往的研究不同,我们对物体是否有纹理或无纹理持不可知态度,因为卷积网络可以从可用的训练图像数据中学习到最优表示。此外,该方法既适用于实例级别的姿态恢复,也适用于类别级别的姿态恢复。实验结果表明,所提出的这种方法在背景杂乱的情况下,无论是实例级别还是类别级别的场景,都能准确地恢复6-DoF物体姿态。对于类别级别的物体姿态估计,在大规模PASCAL3D+数据集上展示了最先进的精度。
代码仓库
geopavlakos/object3d
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| keypoint-detection-on-pascal3d | ConvNet + deformable shape model | Mean PCK: 82.5 |