WuChao-Yuan ; FeichtenhoferChristoph ; FanHaoqi ; HeKaiming ; KrähenbühlPhilipp ; GirshickRoss

摘要
为了理解世界,人类需要不断将现在与过去联系起来,并将事件置于特定的背景中。在本文中,我们使现有的视频模型具备了相同的能力。我们提出了一种长期特征库——在整个视频范围内提取的支持信息——以增强那些原本只能处理2-5秒短片段的最先进视频模型。实验结果表明,通过引入长期特征库来增强三维卷积网络,在三个具有挑战性的视频数据集(AVA、EPIC-Kitchens 和 Charades)上取得了最先进水平的结果。
代码仓库
wei-tim/YOWO
pytorch
GitHub 中提及
facebookresearch/video-long-term-feature-banks
官方
caffe2
GitHub 中提及
BoChenUIUC/YOWO
pytorch
GitHub 中提及
open-mmlab/mmaction2
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-charades | LFB | MAP: 42.5 |
| action-recognition-in-videos-on-ava-v21 | LFB (Kinetics-400 pretraining) | mAP (Val): 27.7 |
| egocentric-activity-recognition-on-epic-1 | LFB Max | Actions Top-1 (S1): 32.70 Actions Top-1 (S2): 21.2 |