6 个月前

计算机视觉

机器视觉 3D

计算机视觉

Thomas Jantos Mohamed Amin Hamdad Wolfgang Granig Stephan Weiss Jan Steinbrener

摘要

精确的6D物体位姿估计是机器人应用中一项关键任务，广泛应用于抓取、定位等场景。由于物体对称性、场景杂乱以及遮挡等因素，该任务本身极具挑战性，而当无法提供深度信息或三维模型等附加数据时，挑战将进一步加剧。本文提出一种基于Transformer的新型方法，仅以RGB图像作为输入，即可预测图像中每个物体的6D位姿。与现有方法不同，我们的网络无需依赖深度图或三维物体模型等额外信息。首先，通过物体检测器对输入图像进行处理，生成特征图并检测出物体边界框；随后，将这些特征图与检测得到的边界框作为额外信息输入至Transformer模块；最后，由独立的平移头和旋转头对Transformer输出的物体查询进行处理，从而获得精确的位姿估计。在具有挑战性的YCB-V数据集上，本方法在仅使用RGB图像的现有方法中达到了当前最优性能。我们进一步展示了该模型作为6自由度（6-DoF）状态估计任务中位姿传感器的适用性。相关代码已开源，可访问：https://github.com/aau-cns/poet。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

机器视觉 3D

计算机视觉

Thomas Jantos Mohamed Amin Hamdad Wolfgang Granig Stephan Weiss Jan Steinbrener

摘要

精确的6D物体位姿估计是机器人应用中一项关键任务，广泛应用于抓取、定位等场景。由于物体对称性、场景杂乱以及遮挡等因素，该任务本身极具挑战性，而当无法提供深度信息或三维模型等附加数据时，挑战将进一步加剧。本文提出一种基于Transformer的新型方法，仅以RGB图像作为输入，即可预测图像中每个物体的6D位姿。与现有方法不同，我们的网络无需依赖深度图或三维物体模型等额外信息。首先，通过物体检测器对输入图像进行处理，生成特征图并检测出物体边界框；随后，将这些特征图与检测得到的边界框作为额外信息输入至Transformer模块；最后，由独立的平移头和旋转头对Transformer输出的物体查询进行处理，从而获得精确的位姿估计。在具有挑战性的YCB-V数据集上，本方法在仅使用RGB图像的现有方法中达到了当前最优性能。我们进一步展示了该模型作为6自由度（6-DoF）状态估计任务中位姿传感器的适用性。相关代码已开源，可访问：https://github.com/aau-cns/poet。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供