6 个月前

计算机视觉

Chao-Yuan Wu Yanghao Li Karttikeya Mangalam Haoqi Fan Bo Xiong Jitendra Malik Christoph Feichtenhofer

摘要

尽管当前的视频识别系统能够准确解析静态图像帧或短片段，但尚无法在更长的时间范围内进行连贯推理。大多数现有视频架构在处理超过5秒的视频时，便会遭遇计算或内存瓶颈。本文提出一种新策略以克服这一挑战。与大多数现有方法试图一次性处理更多帧不同，我们提出采用在线处理方式，并在每一轮迭代中缓存“记忆”信息。通过这种记忆机制，模型可在建模过程中参考先前的上下文信息，实现长期时序建模，且仅带来微小的计算开销。基于这一思想，我们构建了MeMViT——一种增强记忆的多尺度视觉Transformer（Memory-augmented Multiscale Vision Transformer），其时间支持范围比现有模型延长了30倍，而计算量仅增加4.5%；相比之下，传统方法需增加超过3000%的计算资源才能实现同等效果。在多种任务设置下，MeMViT所提升的时序建模能力均显著提升了识别准确率。该模型在AVA、EPIC-Kitchens-100动作分类以及动作预测等多个基准数据集上均取得了当前最优（state-of-the-art）的性能表现。代码与模型已开源，地址为：https://github.com/facebookresearch/memvit。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

Chao-Yuan Wu Yanghao Li Karttikeya Mangalam Haoqi Fan Bo Xiong Jitendra Malik Christoph Feichtenhofer

摘要

尽管当前的视频识别系统能够准确解析静态图像帧或短片段，但尚无法在更长的时间范围内进行连贯推理。大多数现有视频架构在处理超过5秒的视频时，便会遭遇计算或内存瓶颈。本文提出一种新策略以克服这一挑战。与大多数现有方法试图一次性处理更多帧不同，我们提出采用在线处理方式，并在每一轮迭代中缓存“记忆”信息。通过这种记忆机制，模型可在建模过程中参考先前的上下文信息，实现长期时序建模，且仅带来微小的计算开销。基于这一思想，我们构建了MeMViT——一种增强记忆的多尺度视觉Transformer（Memory-augmented Multiscale Vision Transformer），其时间支持范围比现有模型延长了30倍，而计算量仅增加4.5%；相比之下，传统方法需增加超过3000%的计算资源才能实现同等效果。在多种任务设置下，MeMViT所提升的时序建模能力均显著提升了识别准确率。该模型在AVA、EPIC-Kitchens-100动作分类以及动作预测等多个基准数据集上均取得了当前最优（state-of-the-art）的性能表现。代码与模型已开源，地址为：https://github.com/facebookresearch/memvit。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供