
摘要
近期,大规模预训练视觉-语言模型(如CLIP)因其强大的表征能力而受到了广泛关注。这激发了研究人员将这些大规模预训练模型的知识迁移到其他特定任务模型中,例如视频动作识别(VAR)模型,通过特别利用辅助网络来提高参数高效微调(PEFT)的效率。然而,目前在VAR中的迁移方法往往直接从大规模预训练模型中转移冻结知识到动作识别网络,成本较低,但未能充分利用动作识别模型自身的时序建模能力。因此,在本文中,我们提出了一种内存高效的时序差异辅助网络(TDS-CLIP),以平衡知识迁移和时序建模,避免在冻结参数模型中进行反向传播。具体而言,我们引入了一种时序差异适配器(TD-Adapter),该适配器能够有效捕捉运动特征中的局部时序差异,从而增强模型的全局时序建模能力。此外,我们设计了一种辅助运动增强适配器(SME-Adapter),用于指导所提出的辅助网络高效学习视频中的丰富运动信息,从而提升辅助网络捕捉和学习运动信息的能力。我们在三个基准数据集上进行了广泛的实验,包括Something-Something V1&V2和Kinetics-400。实验结果表明,我们的方法取得了具有竞争力的性能。
代码仓库
BBYL9413/TDS-CLIP
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-something | TDS-CLIP-ViT-L/14(8frames) | Top-1 Accuracy: 73.4 Top-5 Accuracy: 93.8 |
| action-recognition-in-videos-on-something-1 | TDS-CLIP-ViT-L/14(8frames) | Top 1 Accuracy: 63.0 Top 5 Accuracy: 87.8 |