
摘要
当前的动作识别研究主要集中在单视角和多视角识别上,这些方法很难满足人机交互(HRI)应用中从任意视角识别动作的需求。数据集的缺乏也构成了障碍。为了提供适用于任意视角动作分析的数据,我们新收集了一个大规模的RGB-D动作数据集,包括RGB视频、深度图像和骨骼序列。该数据集包含在8个固定视角下捕捉到的动作样本以及覆盖整个360度视角角度的变视角序列。总计邀请了118人表演40种动作类别,收集了25,600个视频样本。我们的数据集涉及更多的参与者、更多的视角和大量的样本。更重要的是,这是第一个包含整个360度变视角序列的数据集。该数据集为多视角、跨视角和任意视角的动作分析提供了充足的数据。此外,我们提出了一种视图引导的骨骼卷积神经网络(View-guided Skeleton CNN, VS-CNN),以解决任意视角动作识别的问题。实验结果表明,VS-CNN取得了优异的性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| skeleton-based-action-recognition-on-varying | VS-CNN | Accuracy (AV I): 57% Accuracy (AV II): 75% Accuracy (CS): 76% Accuracy (CV I): 29% Accuracy (CV II): 71% |