3 个月前

MeMViT:用于高效长时视频识别的记忆增强多尺度视觉Transformer

MeMViT:用于高效长时视频识别的记忆增强多尺度视觉Transformer

摘要

尽管当前的视频识别系统能够准确解析静态图像帧或短片段,但尚无法在更长的时间范围内进行连贯推理。大多数现有视频架构在处理超过5秒的视频时,便会遭遇计算或内存瓶颈。本文提出一种新策略以克服这一挑战。与大多数现有方法试图一次性处理更多帧不同,我们提出采用在线处理方式,并在每一轮迭代中缓存“记忆”信息。通过这种记忆机制,模型可在建模过程中参考先前的上下文信息,实现长期时序建模,且仅带来微小的计算开销。基于这一思想,我们构建了MeMViT——一种增强记忆的多尺度视觉Transformer(Memory-augmented Multiscale Vision Transformer),其时间支持范围比现有模型延长了30倍,而计算量仅增加4.5%;相比之下,传统方法需增加超过3000%的计算资源才能实现同等效果。在多种任务设置下,MeMViT所提升的时序建模能力均显著提升了识别准确率。该模型在AVA、EPIC-Kitchens-100动作分类以及动作预测等多个基准数据集上均取得了当前最优(state-of-the-art)的性能表现。代码与模型已开源,地址为:https://github.com/facebookresearch/memvit。

代码仓库

facebookresearch/memvit
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-anticipation-on-epic-kitchens-100MeMViT-24
Recall@5: 17.7
action-recognition-on-ava-v2-2MeMViT-24
mAP: 35.4
action-recognition-on-epic-kitchens-100MeMViT-24
Action@1: 48.4
Noun@1: 60.3
Verb@1: 71.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MeMViT:用于高效长时视频识别的记忆增强多尺度视觉Transformer | 论文 | HyperAI超神经