
摘要
在视频数据中,运动区域所包含的密集运动细节在频域中集中于特定的频率带宽内。而视频数据的其余频率成分则主要携带静态信息,且存在大量冗余,导致现有以原始RGB帧为输入的视频模型处理效率较低。本文提出,应针对重要运动信息分配更密集的计算资源,而对静态信息则采用较少的计算开销。为此,我们设计了一种可训练的运动带通模块(Motion Band-Pass Module, MBPM),用于从原始视频数据中分离出运动活跃信息与静态信息。通过将MBPM嵌入到双路径卷积神经网络(CNN)架构中,我们构建了“活跃-静默网络”(Busy-Quiet Net, BQN)。BQN的高效性源于两条路径在特征空间中避免了冗余:一条路径处理低分辨率的静默特征,另一条路径专注于处理活跃特征。实验结果表明,所提出的BQN在Something-Something V1、Kinetics400、UCF101和HMDB51等多个主流视频数据集上均优于多种近期先进的视频处理模型。
代码仓库
guoxih/Busy-Quiet-Video-Disentangling-for-Video-Classification
官方
pytorch
GitHub 中提及
guoxih/busy-quiet-net
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | BQN (ResNet-50) | Acc@1: 77.3 Acc@5: 93.2 |
| action-recognition-in-videos-on-hmdb-51 | BQN | Average accuracy of 3 splits: 77.6 |
| action-recognition-in-videos-on-something-1 | BQNEn (ImageNet + K400 pretrained) | Top 1 Accuracy: 57.1 Top 5 Accuracy: 84.2 |
| action-recognition-in-videos-on-ucf101 | BQN | 3-fold Accuracy: 97.6 |