7 个月前

计算机视觉

机器视觉 3D

计算机视觉

Kiru Park Timothy Patten Markus Vincze

摘要

仅使用RGB图像估计物体的六自由度（6D）姿态仍然具有挑战性，主要原因是遮挡和对称性等问题。此外，没有专业知识或专用扫描设备的情况下，构建具有精确纹理的3D模型也十分困难。为了解决这些问题，我们提出了一种新的姿态估计方法——Pix2Pose，该方法能够在无需纹理模型的情况下预测每个物体像素的3D坐标。设计了一种自编码器架构来估计每个像素的3D坐标及其预期误差。这些逐像素的预测随后在多个阶段中用于形成2D-3D对应关系，直接通过带有RANSAC迭代的PnP算法计算姿态。我们的方法通过利用生成对抗训练领域的最新成果，能够精确恢复被遮挡的部分，从而对遮挡具有鲁棒性。此外，还提出了一种新的损失函数——变换器损失（Transformer Loss），以处理对称物体的问题，通过引导预测到最近的对称姿态来实现这一目标。在包含对称和被遮挡物体的三个不同基准数据集上的评估结果表明，我们的方法仅使用RGB图像即可超越现有最先进的技术。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

计算机视觉

机器视觉 3D

计算机视觉

Kiru Park Timothy Patten Markus Vincze

摘要

仅使用RGB图像估计物体的六自由度（6D）姿态仍然具有挑战性，主要原因是遮挡和对称性等问题。此外，没有专业知识或专用扫描设备的情况下，构建具有精确纹理的3D模型也十分困难。为了解决这些问题，我们提出了一种新的姿态估计方法——Pix2Pose，该方法能够在无需纹理模型的情况下预测每个物体像素的3D坐标。设计了一种自编码器架构来估计每个像素的3D坐标及其预期误差。这些逐像素的预测随后在多个阶段中用于形成2D-3D对应关系，直接通过带有RANSAC迭代的PnP算法计算姿态。我们的方法通过利用生成对抗训练领域的最新成果，能够精确恢复被遮挡的部分，从而对遮挡具有鲁棒性。此外，还提出了一种新的损失函数——变换器损失（Transformer Loss），以处理对称物体的问题，通过引导预测到最近的对称姿态来实现这一目标。在包含对称和被遮挡物体的三个不同基准数据集上的评估结果表明，我们的方法仅使用RGB图像即可超越现有最先进的技术。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供