
摘要
基于骨架数据的动作识别近年来受到越来越多的关注并取得了显著进展。当前先进的方法普遍采用图卷积网络(Graph Convolutional Networks, GCNs),能够依托预定义的人体拓扑结构,有效提取人体骨架上的特征。然而,尽管取得了一定进展,基于GCN的方法在跨域泛化方面仍面临挑战,尤其是在面对不同人体拓扑结构时表现不佳。针对这一问题,本文提出一种新型骨架动作识别方法——UNIK,该方法不仅能够高效学习人体骨架序列中的时空特征,还具备良好的跨数据集泛化能力。其核心思想是通过多头注意力机制,从均匀分布中学习一个最优的依赖关系矩阵,从而动态建模骨架节点间的关联,摆脱对固定拓扑结构的依赖。为进一步评估基于骨架的动作识别方法在真实视频场景下的跨域泛化性能,本文在一项新构建的Posetics数据集上重新评估了当前最先进的方法以及所提出的UNIK。该数据集由Kinetics-400视频通过姿态估计、精炼与过滤生成,具有更高质量和更一致的骨架表示。我们分析了在Posetics数据集上进行预训练后,模型在小型基准数据集上的动作分类性能提升情况。实验结果表明,经过Posetics预训练的UNIK在迁移到四个目标动作分类数据集(Toyota Smarthome、Penn Action、NTU-RGB+D 60 和 NTU-RGB+D 120)时,展现出优异的泛化能力,并显著超越现有最先进方法。
代码仓库
YangDi666/UNIK
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-toyota-smarthome | UNIK | CS: 64.3 CV1: 36.1 CV2: 65.0 |
| skeleton-based-action-recognition-on-upenn | UNIK | Accuracy: 97.9 |