
摘要
我们提出了一种用于无人机(UAV)视频行为识别的算法——傅里叶行为识别(Fourier Activity Recognition, FAR)。该方法引入了一种新颖的傅里叶物体解耦机制,能够天然地将通常占据较小空间的行人主体与背景分离。该解耦技术在频域中运行,用于表征空间像素随时间变化的程度,并利用傅里叶变换的卷积-乘积特性,将这一频域表征映射至网络所提取的物体-背景混合特征中。为捕捉上下文信息以及长距离时空依赖关系,我们进一步提出了一种新型傅里叶注意力机制(Fourier Attention),该机制通过在频域建模加权外积来模拟自注意力的优势,同时显著降低计算开销。相比传统自注意力,本方法的计算量大幅减少。我们在多个无人机数据集上对所提方法进行了评估,包括UAV Human RGB、UAV Human Night、Drone Action和NEC Drone数据集。实验结果表明,该方法在Top-1准确率上相较现有方法实现了8.02%至38.69%的相对提升,且推理速度最快可达先前方法的3倍。
代码仓库
divyakraman/ECCV2022_FARFourierAerialVideoRecognition
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-on-drone-action | FAR | Top 1 Accuracy: 92.7 |
| action-recognition-on-nec-drone | FAR | Top 1 Accuracy: 71.46 |
| action-recognition-on-uav-human | FAR | Top 1 Accuracy: 39.1 |
| action-recognition-on-uav-human-1 | FAR | Top 1 Accuracy: 38.6 |