3 个月前

基于可学习对齐的隐式时间建模用于视频识别

基于可学习对齐的隐式时间建模用于视频识别

摘要

对比语言-图像预训练(Contrastive Language-Image Pretraining, CLIP)在多种图像任务中展现出卓越性能。然而,如何有效引入时序建模以拓展CLIP在视频理解任务中的应用,仍是当前亟待解决的关键问题。现有的分解式或联合空间-时序建模方法在效率与性能之间往往面临权衡。尽管当前文献中普遍采用“直通管状”(straight-through tube)结构来建模时序信息,我们发现,仅通过简单的帧对齐即可捕捉到足够的语义本质,而无需依赖复杂的时序注意力机制。为此,本文提出一种新颖的隐式可学习对齐(Implicit Learnable Alignment, ILA)方法,在显著降低时序建模开销的同时,实现了极为出色的性能表现。具体而言,针对一对视频帧,ILA在每帧中预测一个交互点(interactive point),该点作为蕴含丰富互信息的区域。通过增强交互点周围的特征,实现两帧之间的隐式对齐。随后,对齐后的特征被聚合为单一的token,并用于后续的空间自注意力计算。该方法有效避免了视频任务中昂贵或性能不足的时序自注意力机制。在多个基准数据集上的大量实验表明,所提出的ILA模块具有显著的优越性与良好的通用性。特别地,在Kinetics-400数据集上,ILA在仅消耗远低于Swin-L和ViViT-H的浮点运算量(FLOPs)的前提下,实现了88.7%的Top-1准确率。相关代码已开源,地址为:https://github.com/Francis-Rings/ILA。

代码仓库

francis-rings/ila
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-kinetics-400ILA (ViT-B/32)
Acc@1: 82.4
Acc@5: 95.8
action-classification-on-kinetics-400ILA (ViT-B/16)
Acc@1: 85.7
Acc@5: 97.2
action-classification-on-kinetics-400ILA (ViT-L/14)
Acc@1: 88.7
Acc@5: 97.8
action-recognition-in-videos-on-somethingILA (ViT-L/14)
Top-1 Accuracy: 70.2
Top-5 Accuracy: 91.8
action-recognition-in-videos-on-somethingILA (ViT-B/16)
Top-1 Accuracy: 66.8
Top-5 Accuracy: 90.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于可学习对齐的隐式时间建模用于视频识别 | 论文 | HyperAI超神经