
摘要
运动作为视频的独特属性,在视频理解模型的发展中始终扮演着关键角色。现代深度学习模型通过多种方式利用运动信息,包括执行时空三维卷积、将三维卷积分解为独立的空间与时间卷积,或在时间维度上计算自注意力机制。这些方法取得成功背后的隐含假设是:连续帧之间的特征图能够被良好地聚合。然而,这一假设在存在显著形变的区域往往难以成立。为此,本文提出一种新型的帧间注意力模块——独立帧间注意力(Stand-alone Inter-Frame Attention, SIFA),首次深入探索帧间形变,以在每个空间位置上估计局部自注意力。技术上,SIFA通过利用两帧之间的差异对偏移预测进行重缩放,重构了可变形设计。以当前帧中每个空间位置作为查询(query),下一帧中对应的局部可变形邻域则作为键(key)和值(value)。随后,SIFA将查询与键之间的相似性作为独立注意力机制,对值进行加权平均,实现时间维度上的特征聚合。为进一步验证其有效性,本文分别将SIFA模块嵌入卷积网络(ConvNets)与视觉Transformer架构中,构建了SIFA-Net与SIFA-Transformer。在四个主流视频数据集上的大量实验表明,SIFA-Net与SIFA-Transformer作为骨干网络展现出显著优势。尤为突出的是,SIFA-Transformer在Kinetics-400数据集上达到了83.1%的准确率。相关源代码已公开,可访问:\url{https://github.com/FuchenUSTC/SIFA}。
代码仓库
fuchenustc/sifa
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | SIFA | Acc@1: 83.1 |
| action-recognition-in-videos-on-something | SIFA | Top-1 Accuracy: 69.8 |
| action-recognition-in-videos-on-something-1 | SIFA | Top 1 Accuracy: 57.3 |