4 个月前

TDS-CLIP:用于图像到视频转换的时间差侧网络学习

TDS-CLIP:用于图像到视频转换的时间差侧网络学习

摘要

近期,大规模预训练视觉-语言模型(如CLIP)因其强大的表征能力而受到了广泛关注。这激发了研究人员将这些大规模预训练模型的知识迁移到其他特定任务模型中,例如视频动作识别(VAR)模型,通过特别利用辅助网络来提高参数高效微调(PEFT)的效率。然而,目前在VAR中的迁移方法往往直接从大规模预训练模型中转移冻结知识到动作识别网络,成本较低,但未能充分利用动作识别模型自身的时序建模能力。因此,在本文中,我们提出了一种内存高效的时序差异辅助网络(TDS-CLIP),以平衡知识迁移和时序建模,避免在冻结参数模型中进行反向传播。具体而言,我们引入了一种时序差异适配器(TD-Adapter),该适配器能够有效捕捉运动特征中的局部时序差异,从而增强模型的全局时序建模能力。此外,我们设计了一种辅助运动增强适配器(SME-Adapter),用于指导所提出的辅助网络高效学习视频中的丰富运动信息,从而提升辅助网络捕捉和学习运动信息的能力。我们在三个基准数据集上进行了广泛的实验,包括Something-Something V1&V2和Kinetics-400。实验结果表明,我们的方法取得了具有竞争力的性能。

代码仓库

BBYL9413/TDS-CLIP
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-recognition-in-videos-on-somethingTDS-CLIP-ViT-L/14(8frames)
Top-1 Accuracy: 73.4
Top-5 Accuracy: 93.8
action-recognition-in-videos-on-something-1TDS-CLIP-ViT-L/14(8frames)
Top 1 Accuracy: 63.0
Top 5 Accuracy: 87.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TDS-CLIP:用于图像到视频转换的时间差侧网络学习 | 论文 | HyperAI超神经