4 个月前

CAST:视频动作识别中的空间和时间交叉注意力机制

CAST:视频动作识别中的空间和时间交叉注意力机制

摘要

识别视频中的人类行为需要空间和时间上的理解。现有的大多数行为识别模型在空间和时间理解上缺乏平衡。本文提出了一种新颖的双流架构,称为时空交叉注意力(Cross-Attention in Space and Time, CAST),该架构仅使用RGB输入即可实现对视频的平衡时空理解。我们提出的瓶颈交叉注意力机制使空间和时间专家模型能够交换信息并进行协同预测,从而提高了性能。我们在具有不同特性的公共基准数据集上进行了广泛的实验验证,包括EPIC-KITCHENS-100、Something-Something-V2和Kinetics-400。实验结果表明,我们的方法在这几个数据集上均表现出优异的性能,而现有方法的性能则会因数据集特性不同而有所波动。

代码仓库

khu-vll/cast
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-kinetics-400CAST-B/16
Acc@1: 85.3
action-recognition-in-videos-on-somethingCAST-B/16
Top-1 Accuracy: 71.6
action-recognition-on-epic-kitchens-100CAST-B/16
Action@1: 49.3
Noun@1: 60.9
Verb@1: 72.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CAST:视频动作识别中的空间和时间交叉注意力机制 | 论文 | HyperAI超神经