
摘要
我们提出了一种统一的框架,用于在原始图像序列中理解人类社会行为。该模型通过一次前向传播过程,联合检测多个个体,推断他们的社会行为,并估计集体活动。我们设计了一种单一架构,该架构不依赖外部检测算法,而是端到端地训练生成密集提议图,并通过一种新颖的推理方案进行优化。时间一致性则通过基于个体级别的匹配循环神经网络(Recurrent Neural Network)来处理。完整的模型以一系列帧作为输入,输出检测结果以及对个体行为和集体活动的估计。我们在多个公开可用的基准数据集上展示了我们的算法达到了最先进的性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-volleyball | GTT (VGG19) | Accuracy: 82.6 |
| action-recognition-in-videos-on-volleyball | SSU (GT) | Accuracy: 81.8 |