
摘要
在视觉监控系统中,识别人们处理物体(如手机、杯子或塑料袋)的行为是必要的。本文针对这一问题,提出了一种新的框架,通过使用人体和物体姿态的图卷积网络来识别与物体相关的人员动作。该框架通过选择性采样视频中的信息帧来构建可靠的人体骨骼图,这些信息帧包含在姿态估计中获得的高置信度得分的人体关节。从采样帧生成的骨骼图不仅在空间域内表示了与物体位置相关的人体姿态,还在时间域内进行了表示,这些图作为图卷积网络的输入。通过对公开基准数据集和我们自建数据集的实验验证,证明了我们方法的有效性,即我们的方法在基于骨架的动作识别方面优于现有最先进方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-icvl-4 | OHA-GCN (Two stream; HP + OHP-hands + informative samples) | Accuracy: 91.86% |
| action-recognition-in-videos-on-ird | OHA-GCN (Two stream; HP + OHP-hands + informative samples) | Accuracy: 80.11% |