3 个月前

忙碌-安静视频解耦用于视频分类

忙碌-安静视频解耦用于视频分类

摘要

在视频数据中,运动区域所包含的密集运动细节在频域中集中于特定的频率带宽内。而视频数据的其余频率成分则主要携带静态信息,且存在大量冗余,导致现有以原始RGB帧为输入的视频模型处理效率较低。本文提出,应针对重要运动信息分配更密集的计算资源,而对静态信息则采用较少的计算开销。为此,我们设计了一种可训练的运动带通模块(Motion Band-Pass Module, MBPM),用于从原始视频数据中分离出运动活跃信息与静态信息。通过将MBPM嵌入到双路径卷积神经网络(CNN)架构中,我们构建了“活跃-静默网络”(Busy-Quiet Net, BQN)。BQN的高效性源于两条路径在特征空间中避免了冗余:一条路径处理低分辨率的静默特征,另一条路径专注于处理活跃特征。实验结果表明,所提出的BQN在Something-Something V1、Kinetics400、UCF101和HMDB51等多个主流视频数据集上均优于多种近期先进的视频处理模型。

代码仓库

基准测试

基准方法指标
action-classification-on-kinetics-400BQN (ResNet-50)
Acc@1: 77.3
Acc@5: 93.2
action-recognition-in-videos-on-hmdb-51BQN
Average accuracy of 3 splits: 77.6
action-recognition-in-videos-on-something-1BQNEn (ImageNet + K400 pretrained)
Top 1 Accuracy: 57.1
Top 5 Accuracy: 84.2
action-recognition-in-videos-on-ucf101BQN
3-fold Accuracy: 97.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
忙碌-安静视频解耦用于视频分类 | 论文 | HyperAI超神经