
摘要
尽管当前的视频识别系统能够准确解析静态图像帧或短片段,但尚无法在更长的时间范围内进行连贯推理。大多数现有视频架构在处理超过5秒的视频时,便会遭遇计算或内存瓶颈。本文提出一种新策略以克服这一挑战。与大多数现有方法试图一次性处理更多帧不同,我们提出采用在线处理方式,并在每一轮迭代中缓存“记忆”信息。通过这种记忆机制,模型可在建模过程中参考先前的上下文信息,实现长期时序建模,且仅带来微小的计算开销。基于这一思想,我们构建了MeMViT——一种增强记忆的多尺度视觉Transformer(Memory-augmented Multiscale Vision Transformer),其时间支持范围比现有模型延长了30倍,而计算量仅增加4.5%;相比之下,传统方法需增加超过3000%的计算资源才能实现同等效果。在多种任务设置下,MeMViT所提升的时序建模能力均显著提升了识别准确率。该模型在AVA、EPIC-Kitchens-100动作分类以及动作预测等多个基准数据集上均取得了当前最优(state-of-the-art)的性能表现。代码与模型已开源,地址为:https://github.com/facebookresearch/memvit。
代码仓库
facebookresearch/memvit
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-anticipation-on-epic-kitchens-100 | MeMViT-24 | Recall@5: 17.7 |
| action-recognition-on-ava-v2-2 | MeMViT-24 | mAP: 35.4 |
| action-recognition-on-epic-kitchens-100 | MeMViT-24 | Action@1: 48.4 Noun@1: 60.3 Verb@1: 71.4 |