
摘要
丰富的语义关系在多种视觉识别问题中具有重要意义。以具体的例子来说,群体活动识别涉及场景中一组人员之间的互动及其相对空间关系。目前最先进的识别方法主要集中在利用深度学习技术训练高效且复杂的图像解释分类器。然而,将这些方法输出的相对低层次的概念转化为对高层次复合场景的解释仍然是一个挑战。图模型是解决这一任务的标准工具。本文提出了一种将图模型和深度神经网络整合到同一框架中的方法。不同于传统的推理方法,我们采用由递归神经网络建模的序列推理。此外,通过在节点之间的边施加门控机制,可以学习出适合进行推理的结构。群体活动识别的实证结果展示了该模型在处理高度结构化的学习任务方面的潜力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| group-activity-recognition-on-collective | Deng et al. | Accuracy: 81.2 |