7 个月前

卷积神经网络

机器视觉 3D

计算机视觉

Bugra Tekin; Sudipta N. Sinha; Pascal Fua

摘要

我们提出了一种单次检测方法，能够在RGB图像中同时检测物体并预测其6D姿态，而无需多个阶段或检查多种假设。与最近提出的仅能预测近似6D姿态且需要后续精炼的单次检测技术（Kehl等人，ICCV'17）不同，我们的方法足够准确，无需额外的后处理步骤。因此，该方法速度更快——在Titan X (Pascal) GPU上可达到50帧每秒——更适合实时处理。我们方法的关键组件是一种受YOLO网络设计启发的新CNN架构，该架构直接预测物体3D边界框投影顶点的2D图像位置。随后，利用PnP算法估计物体的6D姿态。在LINEMOD和OCCLUSION数据集上的单个物体和多个物体姿态估计任务中，当所有方法均不使用后处理时，我们的方法显著优于其他最近基于CNN的方法。虽然通过后处理中的姿态精炼步骤可以提高现有方法的精度，但这些方法的速度通常不超过10帧每秒，远低于我们的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

机器视觉 3D

计算机视觉

Bugra Tekin; Sudipta N. Sinha; Pascal Fua

摘要

我们提出了一种单次检测方法，能够在RGB图像中同时检测物体并预测其6D姿态，而无需多个阶段或检查多种假设。与最近提出的仅能预测近似6D姿态且需要后续精炼的单次检测技术（Kehl等人，ICCV'17）不同，我们的方法足够准确，无需额外的后处理步骤。因此，该方法速度更快——在Titan X (Pascal) GPU上可达到50帧每秒——更适合实时处理。我们方法的关键组件是一种受YOLO网络设计启发的新CNN架构，该架构直接预测物体3D边界框投影顶点的2D图像位置。随后，利用PnP算法估计物体的6D姿态。在LINEMOD和OCCLUSION数据集上的单个物体和多个物体姿态估计任务中，当所有方法均不使用后处理时，我们的方法显著优于其他最近基于CNN的方法。虽然通过后处理中的姿态精炼步骤可以提高现有方法的精度，但这些方法的速度通常不超过10帧每秒，远低于我们的方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供