3 个月前

目标:适配图像模型以实现高效的视频动作识别

目标:适配图像模型以实现高效的视频动作识别

摘要

基于视觉Transformer的视频模型近年来大多遵循“图像预训练后微调”(image pre-training then finetuning)的范式,并在多个视频基准测试中取得了显著成果。然而,由于预训练的图像Transformer模型已展现出极强的迁移能力,对整个视频模型进行全量微调在计算上可能代价高昂且并非必要。为此,本文提出一种新颖的方法——适配预训练图像模型(Adapt pre-trained Image Models, AIM),以实现高效的视频理解。该方法通过冻结预训练的图像模型,并引入少量轻量级适配模块(Adapters),分别设计了空间适应、时间适应以及联合适应机制,逐步赋予图像模型具备时空推理能力。实验结果表明,在四个视频动作识别基准上,所提出的AIM方法在仅使用远少于现有方法的可训练参数情况下,仍能取得具有竞争力甚至更优的性能。由于其结构简洁,该方法具有良好的通用性,可广泛适用于各类预训练图像模型,未来有望充分挖掘更强大图像基础模型的潜力。项目主页详见:\url{https://adapt-image-models.github.io/}。

基准测试

基准方法指标
action-classification-on-kinetics-400AIM (CLIP ViT-L/14, 32x224)
Acc@1: 87.5
Acc@5: 97.7
action-classification-on-kinetics-700AIM (CLIP ViT-L/14, 32x224)
Top-1 Accuracy: 80.4
action-recognition-on-diving-48AIM (CLIP ViT-L/14, 32x224)
Accuracy: 90.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
目标:适配图像模型以实现高效的视频动作识别 | 论文 | HyperAI超神经