6 个月前

计算机视觉

计算机视觉

Song-Chun Zhu Yuanlu Xu Wenguan Wang Jianwen Xie Xiaobai Liu

摘要

本文提出了一种姿态语法（pose grammar）方法，用于解决从单目RGB图像中进行3D人体姿态估计的问题。我们的模型以估计得到的2D姿态作为输入，学习一种通用的2D-3D映射函数，从而推导出对应的3D姿态。所提出的模型由一个基础网络和其上方的一系列双向循环神经网络（Bi-directional RNNs, BRNNs）构成：基础网络高效地捕捉与姿态对齐的特征，而上层的多级BRNN结构则显式地引入了关于人体结构配置的先验知识（如运动学约束、对称性、运动协调性），从而在建模过程中施加高层语义约束。在训练过程中，我们设计了一种数据增强算法，进一步提升了模型对外观变化的鲁棒性以及跨视角的泛化能力。我们在公开的3D人体姿态基准数据集上验证了所提方法的有效性，并提出了一种新的跨视角评估协议，用于检验不同方法在跨视角场景下的泛化性能。实验结果表明，在此类设置下，大多数当前最先进的方法均面临显著挑战，而我们的方法能够有效应对这些困难，展现出优越的泛化能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

计算机视觉

Song-Chun Zhu Yuanlu Xu Wenguan Wang Jianwen Xie Xiaobai Liu

摘要

本文提出了一种姿态语法（pose grammar）方法，用于解决从单目RGB图像中进行3D人体姿态估计的问题。我们的模型以估计得到的2D姿态作为输入，学习一种通用的2D-3D映射函数，从而推导出对应的3D姿态。所提出的模型由一个基础网络和其上方的一系列双向循环神经网络（Bi-directional RNNs, BRNNs）构成：基础网络高效地捕捉与姿态对齐的特征，而上层的多级BRNN结构则显式地引入了关于人体结构配置的先验知识（如运动学约束、对称性、运动协调性），从而在建模过程中施加高层语义约束。在训练过程中，我们设计了一种数据增强算法，进一步提升了模型对外观变化的鲁棒性以及跨视角的泛化能力。我们在公开的3D人体姿态基准数据集上验证了所提方法的有效性，并提出了一种新的跨视角评估协议，用于检验不同方法在跨视角场景下的泛化性能。实验结果表明，在此类设置下，大多数当前最先进的方法均面临显著挑战，而我们的方法能够有效应对这些困难，展现出优越的泛化能力。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供