3 个月前

基于中层视觉表征的物体位姿估计

基于中层视觉表征的物体位姿估计

摘要

本文提出了一种新型的姿态估计模型,适用于能够有效迁移到先前未见过环境中的物体类别。传统的姿态估计深度卷积神经网络(CNN)通常在专门针对物体检测、姿态估计或三维重建任务构建的数据集上进行训练与评估,这类方法往往需要大量标注数据。在本研究中,我们提出了一种仅需少量数据即可训练的姿态估计模型,其基础建立在通用的中层表征之上(如表面法线估计与重光照处理)\cite{taskonomy2018}。这些中层表征在大规模数据集上进行预训练,无需依赖姿态或物体类别标注。随后,通过一个小型CNN神经网络对预测结果进行优化,该网络利用物体掩码(object masks)与轮廓检索(silhouette retrieval)信息提升精度。实验结果表明,该方法在Pix3D数据集\cite{pix3d}上取得了优异性能,在仅使用25%训练数据的情况下,相比现有模型实现了接近35%的性能提升。我们进一步验证了该方法在泛化能力及向新环境迁移方面的显著优势。为此,我们在具有挑战性的主动视觉数据集(Active Vision Dataset)\cite{Ammirato2017ADF}上,针对常见家具类别构建了一个新的姿态估计基准,并对在Pix3D数据集上训练的模型进行了评估。

代码仓库

n-nejatishahidin/pose_from_mid-level
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
pose-estimation-on-pix3dMid-Level based
Percentage correct: 74.55

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于中层视觉表征的物体位姿估计 | 论文 | HyperAI超神经