
摘要
从单张RGB图像中直接回归复杂场景下物体的6自由度(6DoF)姿态(即三维旋转与平移)是一项极具挑战性的任务。尽管端到端方法近年来在高效性方面展现出令人瞩目的成果,但在姿态估计精度上仍逊于基于PnP/RANSAC的复杂方法。为解决这一不足,本文提出一种新颖的自遮挡推理机制,构建了两层结构的三维物体表示,显著提升了端到端6DoF姿态估计的精度。所提出的框架名为SO-Pose,以单张RGB图像为输入,通过共享编码器与两个独立解码器,分别生成2D-3D对应点以及自遮挡信息。随后,将两路输出进行融合,直接回归6DoF姿态参数。通过引入跨层一致性约束,使对应点、自遮挡信息与6DoF姿态之间保持一致,进一步提升了估计的精度与鲁棒性。在多个具有挑战性的公开数据集上,SO-Pose的表现超越或媲美当前所有最先进的方法。
代码仓库
shangbuhuan13/so-pose
官方
pytorch
THU-DA-6D-Pose-Group/GDR-Net
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 6d-pose-estimation-using-rgb-on-occlusion | SO-Pose | Mean ADD: 62.3 |