3 个月前

PERF-Net:姿态增强的RGB-Flow网络

PERF-Net:姿态增强的RGB-Flow网络

摘要

近年来,视频动作识别领域的众多研究工作表明,采用双流模型(即融合空间与时间输入流)是实现当前最优性能的必要手段。本文中,我们提出引入第三种流——基于每帧图像中估计的人体姿态信息的流,具体做法是将人体姿态以渲染形式叠加到原始RGB帧上。乍看之下,这种额外的流似乎显得冗余,因为人体姿态在理论上完全由RGB像素值决定;然而我们发现(或许令人意外的是),这种简单而灵活的改进能够带来互补性的性能提升。基于这一洞察,我们提出了一种新模型,命名为PERF-Net(全称:Pose Empowered RGB-Flow Net),该模型通过知识蒸馏技术将新提出的姿态流与传统的RGB流和光流输入流相结合。实验结果表明,在多个主流人体动作识别数据集上,该模型显著超越现有最先进方法,且在推理阶段无需显式计算光流或姿态信息。此外,该提出的姿态流也是2020年ActivityNet Kinetics挑战赛冠军解决方案的重要组成部分。

基准测试

基准方法指标
action-classification-on-kinetics-600PERF-Net (distilled ResNet50-G)
Top-1 Accuracy: 82.0
Top-5 Accuracy: 95.7
action-recognition-in-videos-on-hmdb-51PERF-Net (distilled S3D-G)
Average accuracy of 3 splits: 83.2
action-recognition-in-videos-on-ucf101PERF-Net (multi-distilled S3D)
3-fold Accuracy: 98.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PERF-Net:姿态增强的RGB-Flow网络 | 论文 | HyperAI超神经