
摘要
人体交互识别在许多应用中非常重要。识别交互的一个关键线索是互动的身体部位。在这项工作中,我们提出了一种新颖的基于骨架的交互图变换器(IGFormer)网络,通过将互动的身体部位建模为图来实现交互识别。具体而言,所提出的IGFormer根据互动身体部位之间的语义和距离相关性构建交互图,并通过基于学习到的图聚合互动身体部位的信息来增强每个人的表示。此外,我们还提出了一种语义分割模块,将每个骨架序列转换为身体部位时间序列,以更好地捕捉骨架序列的空间和时间信息,从而学习图结构。大量实验表明,在三个基准数据集上,我们的模型显著优于现有最佳方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-interaction-recognition-on-ntu-rgb-d | IGFormer | Accuracy (Cross-Subject): 93.6 Accuracy (Cross-View): 96.5 |
| human-interaction-recognition-on-ntu-rgb-d-1 | IGFormer | Accuracy (Cross-Setup): 86.5 Accuracy (Cross-Subject): 85.4 |
| human-interaction-recognition-on-sbu | IGFormer | Accuracy: 98.4 |