
摘要
将任务无关的预训练深度模型中的知识迁移到下游任务,是计算机视觉研究中的一个重要课题。随着计算能力的不断提升,如今已涌现出大量开源的大规模视觉-语言预训练模型,其模型架构复杂且训练数据量庞大。在本研究中,我们聚焦于视频分类任务中的知识迁移问题。传统方法通常对视觉分类任务中的线性分类器头进行随机初始化,却忽视了预训练文本编码器在下游视觉识别任务中的潜在利用价值。本文中,我们重新审视了线性分类器的作用,并用来自预训练模型的其他知识替代原有分类器。具体而言,我们利用性能优异的预训练语言模型生成高质量的语义目标,从而实现高效的知识迁移。实验结果表明,所提方法在保持模型结构几乎不变的前提下,显著提升了视频分类任务的性能与训练速度。该简单而有效的调优范式在多种视频识别场景下均取得了当前最优表现,包括零样本(zero-shot)、少样本(few-shot)以及通用识别任务。特别地,在Kinetics-400数据集上,我们的方法达到了87.8%的最新最高准确率;在五个主流视频数据集的零样本与少样本设置下,相较以往方法,其Top-1准确率绝对提升达20%至50%。代码与模型已开源,详见:https://github.com/whwu95/Text4Vis。
代码仓库
whwu95/Cap4Video
pytorch
GitHub 中提及
whwu95/text4vis
官方
pytorch
GitHub 中提及
whwu95/BIKE
pytorch
GitHub 中提及
whwu95/GPT4Vis
GitHub 中提及
whwu95/ATM
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | Text4Vis (CLIP ViT-L/14) | Acc@1: 87.8 Acc@5: 97.6 |
| action-recognition-in-videos-on-activitynet | Text4Vis (w/ ViT-L) | mAP: 96.9 |
| action-recognition-in-videos-on-ucf101 | Text4Vis | 3-fold Accuracy: 98.2 |
| zero-shot-action-recognition-on-activitynet | Text4Vis | Top-1 Accuracy: 84.6 |
| zero-shot-action-recognition-on-hmdb51 | Text4Vis | Top-1 Accuracy: 58.4 |
| zero-shot-action-recognition-on-kinetics | Text4Vis | Top-1 Accuracy: 68.9 Top-5 Accuracy: 90.3 |
| zero-shot-action-recognition-on-ucf101 | Text4Vis | Top-1 Accuracy: 85.8 |