8 个月前

卷积神经网络

计算机视觉

William McNally Alexander Wong John McPhee

摘要

尽管深度相机和惯性传感器在人体动作识别中得到了广泛应用，但在许多场景下，由于成本或环境限制，这些传感模式并不实用。因此，最近的研究兴趣集中在利用低成本、易获取的RGB相机通过深度卷积神经网络进行人体动作识别。然而，迄今为止提出的许多用于动作识别的深度卷积神经网络都严重依赖于从图像数据中直接学习全局外观特征，导致网络架构复杂度高、计算成本昂贵且难以训练。为了降低网络复杂度并提高性能，我们引入了时空激活重投影（Spatio-Temporal Activation Reprojection, STAR）的概念。具体而言，我们使用3D卷积堆栈在空间和时间上重新投影由人体姿态估计层生成的时空激活。在UTD-MHAD和J-HMDB数据集上的实验结果表明，基于所提出的STAR框架（我们将其称为STAR-Net）的端到端架构在单环境和小规模应用中表现出色。在UTD-MHAD数据集上，STAR-Net的表现优于几种使用更丰富数据模态（如深度和惯性传感器）的方法。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

卷积神经网络

计算机视觉

William McNally Alexander Wong John McPhee

摘要

尽管深度相机和惯性传感器在人体动作识别中得到了广泛应用，但在许多场景下，由于成本或环境限制，这些传感模式并不实用。因此，最近的研究兴趣集中在利用低成本、易获取的RGB相机通过深度卷积神经网络进行人体动作识别。然而，迄今为止提出的许多用于动作识别的深度卷积神经网络都严重依赖于从图像数据中直接学习全局外观特征，导致网络架构复杂度高、计算成本昂贵且难以训练。为了降低网络复杂度并提高性能，我们引入了时空激活重投影（Spatio-Temporal Activation Reprojection, STAR）的概念。具体而言，我们使用3D卷积堆栈在空间和时间上重新投影由人体姿态估计层生成的时空激活。在UTD-MHAD和J-HMDB数据集上的实验结果表明，基于所提出的STAR框架（我们将其称为STAR-Net）的端到端架构在单环境和小规模应用中表现出色。在UTD-MHAD数据集上，STAR-Net的表现优于几种使用更丰富数据模态（如深度和惯性传感器）的方法。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供