4 个月前

ZeroI2V:从图像到视频的零成本预训练变压器适应方法

ZeroI2V:从图像到视频的零成本预训练变压器适应方法

摘要

将图像模型适应到视频领域已成为解决视频识别任务的有效范式。由于图像模型参数量巨大且具有良好的迁移能力,进行全量微调不仅效率低下,甚至有时没有必要。因此,近期的研究重点逐渐转向了参数高效的图像到视频适应方法。然而,这些适应策略在处理视频领域的域差距和时间建模时不可避免地会引入额外的计算成本。本文提出了一种新的适应范式(ZeroI2V),旨在将图像变换器迁移到视频识别任务中(即在推理过程中不对原始模型增加任何额外成本)。为了实现这一目标,我们提出了两个核心设计。首先,为了捕捉视频中的动态变化并降低图像到视频适应的难度,我们利用自注意力机制的灵活性,引入了空间-时间双头注意力(Spatial-Temporal Dual-Headed Attention, STDHA)。该方法能够在不增加任何额外参数和计算的情况下,高效地赋予图像变换器时间建模的能力。其次,为了解决图像和视频之间的域差距问题,我们提出了一种线性适应策略,通过使用轻量级密集布置的线性适配器来完全迁移冻结的图像模型至视频识别任务。得益于这种定制化的线性设计,在训练完成后,所有新添加的适配器都可以通过结构重参数化轻松合并到原始模块中,从而在推理过程中实现零额外成本。大量实验表明,在代表性的全监督和少样本视频识别基准测试中,ZeroI2V 能够达到或超越现有最先进方法的性能,并且在参数和推理效率方面表现出色。

代码仓库

mcg-nju/zeroi2v
官方
pytorch
GitHub 中提及
leexinhao/ZeroI2V
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-kinetics-400ZeroI2V ViT-L/14
Acc@1: 87.2
Acc@5: 97.6
action-recognition-in-videos-on-hmdb-51ZeroI2V ViT-L/14
Average accuracy of 3 splits: 83.4
action-recognition-in-videos-on-somethingZeroI2V ViT-L/14
Top-1 Accuracy: 72.2
Top-5 Accuracy: 93.0
action-recognition-in-videos-on-ucf101ZeroI2V ViT-L/14
3-fold Accuracy: 98.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ZeroI2V:从图像到视频的零成本预训练变压器适应方法 | 论文 | HyperAI超神经