Mandela PatrickDylan CampbellYuki M. AsanoIshan MisraFlorian MetzeChristoph FeichtenhoferAndrea VedaldiJoão F. Henriques

摘要
在视频Transformer模型中,时间维度通常被与两个空间维度同等处理。然而,在物体或摄像机可能发生运动的场景中,某一帧 $t$ 中图像上某一点所对应的物理点,可能与帧 $t+k$ 中同一位置的内容毫无关联。为了更好地理解动态场景,必须对这种时序对应关系进行建模。为此,我们提出了一种新型的即插即用模块——轨迹注意力(trajectory attention),该模块能够沿着隐式确定的运动轨迹聚合信息。此外,我们还提出了一种新方法,有效缓解了计算和内存开销随输入规模呈二次增长的问题,这对高分辨率视频或长时视频尤为重要。尽管这些方法在多种场景下均具实用性,我们将其应用于基于Transformer的视频动作识别任务,并在Kinetics、Something-Something V2以及Epic-Kitchens数据集上取得了当前最优的性能表现。相关代码与模型已开源,地址为:https://github.com/facebookresearch/Motionformer。
代码仓库
facebookresearch/Motionformer
官方
pytorch
GitHub 中提及
facebookresearch/xformers
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | Motionformer-HR | Acc@1: 81.1 Acc@5: 95.2 |
| action-recognition-in-videos-on-something | Mformer-L | GFLOPs: 1181x3 Parameters: N/A Top-1 Accuracy: 68.1 Top-5 Accuracy: 91.2 |
| action-recognition-in-videos-on-something | Mformer-HR | GFLOPs: 958.8x3 Parameters: N/A Top-1 Accuracy: 67.1 Top-5 Accuracy: 90.6 |
| action-recognition-in-videos-on-something | Mformer | Top-1 Accuracy: 66.5 Top-5 Accuracy: 90.1 |
| action-recognition-on-epic-kitchens-100 | Mformer-HR | Action@1: 44.5 Noun@1: 58.5 Verb@1: 67.0 |
| action-recognition-on-epic-kitchens-100 | Mformer-L | Action@1: 44.1 Noun@1: 57.6 Verb@1: 67.1 |
| action-recognition-on-epic-kitchens-100 | Mformer | Action@1: 43.1 Noun@1: 56.5 Verb@1: 66.7 |