6 个月前

卷积神经网络

计算机视觉

Yinxiao Li Zhichao Lu Xuehan Xiong Jonathan Huang

摘要

近年来，视频动作识别领域的众多研究工作表明，采用双流模型（即融合空间与时间输入流）是实现当前最优性能的必要手段。本文中，我们提出引入第三种流——基于每帧图像中估计的人体姿态信息的流，具体做法是将人体姿态以渲染形式叠加到原始RGB帧上。乍看之下，这种额外的流似乎显得冗余，因为人体姿态在理论上完全由RGB像素值决定；然而我们发现（或许令人意外的是），这种简单而灵活的改进能够带来互补性的性能提升。基于这一洞察，我们提出了一种新模型，命名为PERF-Net（全称：Pose Empowered RGB-Flow Net），该模型通过知识蒸馏技术将新提出的姿态流与传统的RGB流和光流输入流相结合。实验结果表明，在多个主流人体动作识别数据集上，该模型显著超越现有最先进方法，且在推理阶段无需显式计算光流或姿态信息。此外，该提出的姿态流也是2020年ActivityNet Kinetics挑战赛冠军解决方案的重要组成部分。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Yinxiao Li Zhichao Lu Xuehan Xiong Jonathan Huang

摘要

近年来，视频动作识别领域的众多研究工作表明，采用双流模型（即融合空间与时间输入流）是实现当前最优性能的必要手段。本文中，我们提出引入第三种流——基于每帧图像中估计的人体姿态信息的流，具体做法是将人体姿态以渲染形式叠加到原始RGB帧上。乍看之下，这种额外的流似乎显得冗余，因为人体姿态在理论上完全由RGB像素值决定；然而我们发现（或许令人意外的是），这种简单而灵活的改进能够带来互补性的性能提升。基于这一洞察，我们提出了一种新模型，命名为PERF-Net（全称：Pose Empowered RGB-Flow Net），该模型通过知识蒸馏技术将新提出的姿态流与传统的RGB流和光流输入流相结合。实验结果表明，在多个主流人体动作识别数据集上，该模型显著超越现有最先进方法，且在推理阶段无需显式计算光流或姿态信息。此外，该提出的姿态流也是2020年ActivityNet Kinetics挑战赛冠军解决方案的重要组成部分。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供