
摘要
我们提出了一种新的注意力机制,称为结构自注意力(StructSA),该机制通过卷积识别键查询交互中自然出现的空间时间结构相关性模式来生成注意力图,并利用这些图动态聚合值特征的局部上下文。这有效地利用了图像和视频中的丰富结构模式,如场景布局、物体运动和物体间关系。以StructSA为主要构建模块,我们开发了结构视觉变换器(StructViT),并在图像和视频分类任务上评估了其有效性,取得了在ImageNet-1K、Kinetics-400、Something-Something V1 & V2、Diving-48和FineGym数据集上的最先进结果。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | StructViT-B-4-1 | Acc@1: 83.4 |
| action-recognition-in-videos-on-something | StructVit-B-4-1 | Top-1 Accuracy: 71.5 |
| action-recognition-in-videos-on-something-1 | StructVit-B-4-1 | Top 1 Accuracy: 61.3 |
| action-recognition-on-diving-48 | StructVit-B-4-1 | Accuracy: 88.3 |