4 个月前

CenterSnap:单次多目标3D形状重建及类别6D姿态和尺寸估计

CenterSnap:单次多目标3D形状重建及类别6D姿态和尺寸估计

摘要

本文研究了从单视角RGB-D观测中同时进行多目标3D重建、6D姿态和尺寸估计这一复杂任务。与实例级姿态估计不同,我们关注的是一个更具挑战性的问题,即在推理阶段没有可用的CAD模型。现有的方法主要遵循一个复杂的多阶段流程,首先在图像中定位和检测每个目标实例,然后回归到它们的3D网格或6D姿态。这些方法在复杂的多目标场景中(可能存在遮挡)计算成本高且性能较低。因此,我们提出了一种简单的单阶段方法,在无需边界框的情况下联合预测目标的3D形状并估计其6D姿态和尺寸。具体而言,我们的方法将目标实例视为空间中心,每个中心表示一个目标的完整形状及其6D姿态和尺寸。通过这种逐像素表示方式,我们的方法可以在实时(40帧/秒)条件下重建多个新颖的目标实例,并在一个前向传递中预测它们的6D姿态和尺寸。通过广泛的实验,我们证明了该方法在多目标ShapeNet和NOCS数据集上分别显著优于所有形状补全和类别级别的6D姿态及尺寸估计基线方法,对于新颖的真实世界目标实例,在6D姿态的mAP指标上绝对提升了12.6%。

代码仓库

zubair-irshad/shapo
pytorch
GitHub 中提及
zubair-irshad/CenterSnap
pytorch
GitHub 中提及

基准测试

基准方法指标
6d-pose-estimation-using-rgbd-on-camera25CenterSnap
mAP 10, 10cm: 87.9
mAP 10, 5cm: 81.3
mAP 3DIou@25: 93.2
mAP 3DIou@50: 92.5
mAP 5, 5cm: 66.2
6d-pose-estimation-using-rgbd-on-real275CenterSnap
mAP 10, 10cm: 70.9
mAP 10, 5cm: 64.3
mAP 3DIou@25: 83.5
mAP 3DIou@50: 80.2
mAP 5, 5cm: 29.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CenterSnap:单次多目标3D形状重建及类别6D姿态和尺寸估计 | 论文 | HyperAI超神经