3 个月前

用于高效视频理解的时序自适应模型

用于高效视频理解的时序自适应模型

摘要

空间卷积在众多深度视频模型中被广泛使用,其基本假设是时空不变性,即在不同帧的各个位置上共享卷积权重。本文提出了一种时序自适应卷积(Temporally-Adaptive Convolutions, TAdaConv),用于视频理解任务,结果表明:沿时间维度进行自适应的权重校准,是一种高效建模视频中复杂时序动态的有效方法。具体而言,TAdaConv通过根据每帧的局部与全局时间上下文信息,对卷积核权重进行动态校准,从而赋予空间卷积以时间建模能力。相较于现有的时序建模操作,TAdaConv具有更高的效率,因为它作用于卷积核本身,而非特征图,而卷积核的维度比空间分辨率小一个数量级。此外,核权重的动态校准还带来了模型容量的提升。基于这一即插即用的TAdaConv模块及其扩展版本TAdaConvV2,我们构建了TAdaBlocks,使ConvNeXt与视觉Transformer模型具备强大的时序建模能力。实验结果表明,TAdaConvNeXtV2与TAdaFormer在多个视频理解基准测试中,性能可与当前最先进的卷积与Transformer模型相媲美。相关代码与模型已开源,地址为:https://github.com/alibaba-mmai-research/TAdaConv。

代码仓库

alibaba-mmai-research/TAdaConv
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-kinetics-400TAdaConvNeXtV2-B
Acc@1: 86.4
action-classification-on-kinetics-400TAdaFormer-L/14
Acc@1: 89.9
action-recognition-in-videos-on-somethingTAdaConvNeXtV2-B
Top-1 Accuracy: 71.1
action-recognition-in-videos-on-somethingTAdaFormer-L/14
Top-1 Accuracy: 73.6
action-recognition-in-videos-on-something-1TAdaConvNeXtV2-B
Top 1 Accuracy: 60.7
action-recognition-in-videos-on-something-1TAdaFormer-L/14
Top 1 Accuracy: 63.7
action-recognition-on-epic-kitchens-100TAdaConvNeXtV2-S
Action@1: 48.9
Noun@1: 60.2
Verb@1: 71.0
action-recognition-on-epic-kitchens-100TAdaFormer-L/14
Action@1: 51.8
Noun@1: 64.1
Verb@1: 71.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于高效视频理解的时序自适应模型 | 论文 | HyperAI超神经