3 个月前

视频模型中的独立帧间注意力机制

视频模型中的独立帧间注意力机制

摘要

运动作为视频的独特属性,在视频理解模型的发展中始终扮演着关键角色。现代深度学习模型通过多种方式利用运动信息,包括执行时空三维卷积、将三维卷积分解为独立的空间与时间卷积,或在时间维度上计算自注意力机制。这些方法取得成功背后的隐含假设是:连续帧之间的特征图能够被良好地聚合。然而,这一假设在存在显著形变的区域往往难以成立。为此,本文提出一种新型的帧间注意力模块——独立帧间注意力(Stand-alone Inter-Frame Attention, SIFA),首次深入探索帧间形变,以在每个空间位置上估计局部自注意力。技术上,SIFA通过利用两帧之间的差异对偏移预测进行重缩放,重构了可变形设计。以当前帧中每个空间位置作为查询(query),下一帧中对应的局部可变形邻域则作为键(key)和值(value)。随后,SIFA将查询与键之间的相似性作为独立注意力机制,对值进行加权平均,实现时间维度上的特征聚合。为进一步验证其有效性,本文分别将SIFA模块嵌入卷积网络(ConvNets)与视觉Transformer架构中,构建了SIFA-Net与SIFA-Transformer。在四个主流视频数据集上的大量实验表明,SIFA-Net与SIFA-Transformer作为骨干网络展现出显著优势。尤为突出的是,SIFA-Transformer在Kinetics-400数据集上达到了83.1%的准确率。相关源代码已公开,可访问:\url{https://github.com/FuchenUSTC/SIFA}。

代码仓库

fuchenustc/sifa
官方
pytorch

基准测试

基准方法指标
action-classification-on-kinetics-400SIFA
Acc@1: 83.1
action-recognition-in-videos-on-somethingSIFA
Top-1 Accuracy: 69.8
action-recognition-in-videos-on-something-1SIFA
Top 1 Accuracy: 57.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视频模型中的独立帧间注意力机制 | 论文 | HyperAI超神经