
摘要
我们介绍了一种简单而令人惊讶的强大模型,用于在动作识别和人与物体交互任务中引入注意力机制。所提出的注意力模块可以在有或无额外监督的情况下进行训练,并在几乎不增加网络规模和计算成本的前提下显著提高准确性。该模块在三个标准的动作识别基准测试(涵盖静态图像和视频)上取得了显著的性能提升,并在MPII数据集上实现了12.5%的相对改进,建立了新的最先进水平。我们还对注意力模块进行了广泛的实证和分析研究。从分析的角度来看,我们提出了一种新颖的自下而上和自上而下注意力机制作为双线性池化方法(通常用于细粒度分类)的低秩近似的新推导。从这一视角出发,我们的注意力公式为将动作识别视为一个细粒度识别问题提供了一种新的表征方法。
代码仓库
rohitgirdhar/AttentionalPoolingAction
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| human-object-interaction-detection-on-hico-1 | Girdhar & Ramanan | mAP: 34.6 |