3 个月前

重新审视分类器:将视觉-语言模型迁移用于视频识别

重新审视分类器:将视觉-语言模型迁移用于视频识别

摘要

将任务无关的预训练深度模型中的知识迁移到下游任务,是计算机视觉研究中的一个重要课题。随着计算能力的不断提升,如今已涌现出大量开源的大规模视觉-语言预训练模型,其模型架构复杂且训练数据量庞大。在本研究中,我们聚焦于视频分类任务中的知识迁移问题。传统方法通常对视觉分类任务中的线性分类器头进行随机初始化,却忽视了预训练文本编码器在下游视觉识别任务中的潜在利用价值。本文中,我们重新审视了线性分类器的作用,并用来自预训练模型的其他知识替代原有分类器。具体而言,我们利用性能优异的预训练语言模型生成高质量的语义目标,从而实现高效的知识迁移。实验结果表明,所提方法在保持模型结构几乎不变的前提下,显著提升了视频分类任务的性能与训练速度。该简单而有效的调优范式在多种视频识别场景下均取得了当前最优表现,包括零样本(zero-shot)、少样本(few-shot)以及通用识别任务。特别地,在Kinetics-400数据集上,我们的方法达到了87.8%的最新最高准确率;在五个主流视频数据集的零样本与少样本设置下,相较以往方法,其Top-1准确率绝对提升达20%至50%。代码与模型已开源,详见:https://github.com/whwu95/Text4Vis。

代码仓库

whwu95/Cap4Video
pytorch
GitHub 中提及
whwu95/text4vis
官方
pytorch
GitHub 中提及
whwu95/BIKE
pytorch
GitHub 中提及
whwu95/GPT4Vis
GitHub 中提及
whwu95/ATM
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-kinetics-400Text4Vis (CLIP ViT-L/14)
Acc@1: 87.8
Acc@5: 97.6
action-recognition-in-videos-on-activitynetText4Vis (w/ ViT-L)
mAP: 96.9
action-recognition-in-videos-on-ucf101Text4Vis
3-fold Accuracy: 98.2
zero-shot-action-recognition-on-activitynetText4Vis
Top-1 Accuracy: 84.6
zero-shot-action-recognition-on-hmdb51Text4Vis
Top-1 Accuracy: 58.4
zero-shot-action-recognition-on-kineticsText4Vis
Top-1 Accuracy: 68.9
Top-5 Accuracy: 90.3
zero-shot-action-recognition-on-ucf101Text4Vis
Top-1 Accuracy: 85.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新审视分类器:将视觉-语言模型迁移用于视频识别 | 论文 | HyperAI超神经