
摘要
识别视频中的人类行为需要空间和时间上的理解。现有的大多数行为识别模型在空间和时间理解上缺乏平衡。本文提出了一种新颖的双流架构,称为时空交叉注意力(Cross-Attention in Space and Time, CAST),该架构仅使用RGB输入即可实现对视频的平衡时空理解。我们提出的瓶颈交叉注意力机制使空间和时间专家模型能够交换信息并进行协同预测,从而提高了性能。我们在具有不同特性的公共基准数据集上进行了广泛的实验验证,包括EPIC-KITCHENS-100、Something-Something-V2和Kinetics-400。实验结果表明,我们的方法在这几个数据集上均表现出优异的性能,而现有方法的性能则会因数据集特性不同而有所波动。
代码仓库
khu-vll/cast
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | CAST-B/16 | Acc@1: 85.3 |
| action-recognition-in-videos-on-something | CAST-B/16 | Top-1 Accuracy: 71.6 |
| action-recognition-on-epic-kitchens-100 | CAST-B/16 | Action@1: 49.3 Noun@1: 60.9 Verb@1: 72.5 |