6 个月前

摘要

运动作为视频的独特属性，在视频理解模型的发展中始终扮演着关键角色。现代深度学习模型通过多种方式利用运动信息，包括执行时空三维卷积、将三维卷积分解为独立的空间与时间卷积，或在时间维度上计算自注意力机制。这些方法取得成功背后的隐含假设是：连续帧之间的特征图能够被良好地聚合。然而，这一假设在存在显著形变的区域往往难以成立。为此，本文提出一种新型的帧间注意力模块——独立帧间注意力（Stand-alone Inter-Frame Attention, SIFA），首次深入探索帧间形变，以在每个空间位置上估计局部自注意力。技术上，SIFA通过利用两帧之间的差异对偏移预测进行重缩放，重构了可变形设计。以当前帧中每个空间位置作为查询（query），下一帧中对应的局部可变形邻域则作为键（key）和值（value）。随后，SIFA将查询与键之间的相似性作为独立注意力机制，对值进行加权平均，实现时间维度上的特征聚合。为进一步验证其有效性，本文分别将SIFA模块嵌入卷积网络（ConvNets）与视觉Transformer架构中，构建了SIFA-Net与SIFA-Transformer。在四个主流视频数据集上的大量实验表明，SIFA-Net与SIFA-Transformer作为骨干网络展现出显著优势。尤为突出的是，SIFA-Transformer在Kinetics-400数据集上达到了83.1%的准确率。相关源代码已公开，可访问：\url{https://github.com/FuchenUSTC/SIFA}。

源 PDF