
摘要
为了理解人类行为,我们不仅需要识别个体行为,还必须建模可能极为复杂的群体活动及其交互过程。目前,层次化模型在群体活动识别任务中表现最佳,但其训练通常依赖于个体行为层面的细粒度标注。本文表明,仅利用骨骼数据,我们即可在仅提供序列级别群体活动标签的情况下,训练出达到当前最优水平的端到端系统。实验结果表明,缺乏个体行为监督的模型性能显著下降。然而,我们进一步证明,通过任意预训练的特征提取器即可生成伪标签,从而实现与监督训练相当的最终性能。最后,我们设计的轻量级仅基于姿态的网络架构,在自监督变体下仍能取得与更复杂的多模态方法相媲美的优异结果,展现出极强的竞争力。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| group-activity-recognition-on-volleyball | Zappardino et al. | Accuracy: 91.0 |
| group-activity-recognition-on-volleyball | Zappardino et al. (SSAL) | Accuracy: 89.4 |