6 个月前

卷积神经网络

计算机视觉

计算机视觉

Bruno Artacho Andreas Savakis

摘要

我们提出UniPose，一种基于“瀑布式”空洞空间池化（Waterfall Atrous Spatial Pooling）架构的统一人体姿态估计框架，在多个姿态估计指标上均取得了当前最优性能。现有基于标准卷积神经网络（CNN）架构的姿态估计方法在关键点定位上严重依赖统计后处理或预设的锚定姿态。相比之下，UniPose通过在单阶段内联合实现上下文分割与关键点定位，无需依赖统计后处理方法，即可实现高精度的人体姿态估计。UniPose中的“瀑布模块”（Waterfall module）充分利用级联架构中逐步过滤的高效性，同时保持与空间金字塔结构相当的多尺度感受野。此外，我们将该方法扩展至UniPose-LSTM，用于多帧视频序列的处理，在视频时序姿态估计任务中同样达到了当前最优水平。在多个数据集上的实验结果表明，采用ResNet主干网络与瀑布模块的UniPose，是一种鲁棒且高效的姿态估计架构，在单人姿态检测任务中，无论是单帧图像还是视频序列，均取得了当前最优的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

计算机视觉

Bruno Artacho Andreas Savakis

摘要

我们提出UniPose，一种基于“瀑布式”空洞空间池化（Waterfall Atrous Spatial Pooling）架构的统一人体姿态估计框架，在多个姿态估计指标上均取得了当前最优性能。现有基于标准卷积神经网络（CNN）架构的姿态估计方法在关键点定位上严重依赖统计后处理或预设的锚定姿态。相比之下，UniPose通过在单阶段内联合实现上下文分割与关键点定位，无需依赖统计后处理方法，即可实现高精度的人体姿态估计。UniPose中的“瀑布模块”（Waterfall module）充分利用级联架构中逐步过滤的高效性，同时保持与空间金字塔结构相当的多尺度感受野。此外，我们将该方法扩展至UniPose-LSTM，用于多帧视频序列的处理，在视频时序姿态估计任务中同样达到了当前最优水平。在多个数据集上的实验结果表明，采用ResNet主干网络与瀑布模块的UniPose，是一种鲁棒且高效的姿态估计架构，在单人姿态检测任务中，无论是单帧图像还是视频序列，均取得了当前最优的性能表现。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供