
摘要
我们提出了一种名为前瞻性视频变换器(Anticipative Video Transformer, AVT)的端到端注意力机制视频建模架构,该架构通过关注先前观测到的视频内容,实现对未来动作的预测。该模型在训练过程中联合优化两项任务:一是预测视频序列中的下一个动作,二是学习能够预测后续帧特征的帧特征编码器。相较于现有的时序聚合策略,AVT兼具两个优势:既能保持已观测动作的时序连续性,又能有效捕捉长距离依赖关系——这两点对于动作预测任务至关重要。通过大量实验验证,AVT在四个主流动作预测基准数据集上均取得了当前最优的性能表现,包括EpicKitchens-55、EpicKitchens-100、EGTEA Gaze+和50-Salads;并在EpicKitchens-100 CVPR'21挑战赛中荣获第一名。
代码仓库
facebookresearch/AVT
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-anticipation-on-epic-kitchens-100 | AVT+ | Recall@5: 15.9 |
| action-anticipation-on-epic-kitchens-100-test | AVT+ | recall@5: 12.6 |
| action-anticipation-on-epic-kitchens-100-test | AVT++ | recall@5: 16.7 |
| action-anticipation-on-epic-kitchens-55-1 | AVT+ | Top 1 Accuracy - Act.: 10.41 Top 1 Accuracy - Noun: 15.64 Top 1 Accuracy - Verb: 30.66 Top 5 Accuracy - Act.: 24.27 Top 5 Accuracy - Noun: 40.76 Top 5 Accuracy - Verb: 72.17 |
| action-anticipation-on-epic-kitchens-55-seen | AVT+ | Top 1 Accuracy - Act.: 16.84 Top 1 Accuracy - Noun: 20.16 Top 1 Accuracy - Verb: 34.36 Top 5 Accuracy - Act.: 36.52 Top 5 Accuracy - Noun: 51.57 Top 5 Accuracy - Verb: 80.03 |