6 个月前

计算机视觉

计算机视觉

Tingbo Hou Adel Ahmadyan Liangkai Zhang Jianing Wei Matthias Grundmann

摘要

本文研究了从RGB图像中检测未见物体并估计其三维姿态的问题。为此，我们提出了两种面向移动设备优化的网络结构：MobilePose-Base与MobilePose-Shape。前者适用于仅有姿态监督的场景，后者则针对存在形状监督（即使为弱监督）的情况。我们重新审视了以往方法中使用的形状特征，包括分割图与坐标图。我们阐明了在何种条件下以及为何像素级形状监督能够提升姿态估计的性能。基于此，我们在MobilePose-Shape中引入形状预测作为中间层，使网络能够通过形状信息学习姿态。我们的模型在混合的真实与合成数据上进行训练，采用弱监督且带有噪声的形状标签。模型极其轻量化，可在现代移动设备上实现实时运行（例如在Galaxy S20上达到36 FPS）。与以往的单阶段方法相比，本方法在显著减小模型规模（模型大小或参数量减少2%~3%）的同时，仍实现了更高的精度。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Tingbo Hou Adel Ahmadyan Liangkai Zhang Jianing Wei Matthias Grundmann

摘要

本文研究了从RGB图像中检测未见物体并估计其三维姿态的问题。为此，我们提出了两种面向移动设备优化的网络结构：MobilePose-Base与MobilePose-Shape。前者适用于仅有姿态监督的场景，后者则针对存在形状监督（即使为弱监督）的情况。我们重新审视了以往方法中使用的形状特征，包括分割图与坐标图。我们阐明了在何种条件下以及为何像素级形状监督能够提升姿态估计的性能。基于此，我们在MobilePose-Shape中引入形状预测作为中间层，使网络能够通过形状信息学习姿态。我们的模型在混合的真实与合成数据上进行训练，采用弱监督且带有噪声的形状标签。模型极其轻量化，可在现代移动设备上实现实时运行（例如在Galaxy S20上达到36 FPS）。与以往的单阶段方法相比，本方法在显著减小模型规模（模型大小或参数量减少2%~3%）的同时，仍实现了更高的精度。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

MobilePose：基于弱形状监督的未知物体实时姿态估计 | 论文 | HyperAI超神经