4 个月前

基于预训练视觉-语言模型的双向跨模态知识探索用于视频识别

基于预训练视觉-语言模型的双向跨模态知识探索用于视频识别

摘要

视觉-语言模型(VLMs)在大规模图像-文本对上预训练后,已经在各种视觉任务中展示了出色的迁移能力。从这些强大的VLMs中迁移知识是构建有效的视频识别模型的一个有前景的方向。然而,目前在这一领域的探索仍然有限。我们认为,预训练VLMs的最大价值在于建立视觉域和文本域之间的桥梁。在本文中,我们提出了一种名为BIKE的新框架,该框架利用跨模态桥来探索双向知识:i) 我们引入了视频属性关联机制,该机制利用从视频到文本的知识生成文本辅助属性,以补充视频识别;ii) �们还提出了时间概念定位机制,该机制利用从文本到视频的专业知识以无参数的方式捕捉时间显著性,从而增强视频表示。我们在六个流行的视频数据集上进行了广泛的研究,包括Kinetics-400、Kinetics-600、UCF-101、HMDB-51、ActivityNet和Charades,结果表明我们的方法在各种识别场景下(如常规识别、零样本识别和少样本识别)均达到了最先进的性能。我们的最佳模型在具有挑战性的Kinetics-400数据集上使用发布的CLIP模型实现了88.6%的最高精度。代码可在https://github.com/whwu95/BIKE 获取。

代码仓库

whwu95/Cap4Video
pytorch
GitHub 中提及
whwu95/text4vis
pytorch
GitHub 中提及
whwu95/BIKE
官方
pytorch
GitHub 中提及
whwu95/GPT4Vis
GitHub 中提及
whwu95/ATM
pytorch
GitHub 中提及

基准测试

基准方法指标
action-classification-on-charadesBIKE
MAP: 50.7
action-classification-on-kinetics-400BIKE (CLIP ViT-L/14)
Acc@1: 88.7
Acc@5: 98.4
action-recognition-in-videos-on-activitynetBIKE
mAP: 96.1
action-recognition-in-videos-on-hmdb-51BIKE
Average accuracy of 3 splits: 83.1
action-recognition-in-videos-on-ucf101BIKE
3-fold Accuracy: 98.8
zero-shot-action-recognition-on-activitynetBIKE
Top-1 Accuracy: 86.2
zero-shot-action-recognition-on-hmdb51BIKE
Top-1 Accuracy: 61.4
zero-shot-action-recognition-on-kineticsBIKE
Top-1 Accuracy: 68.5
Top-5 Accuracy: 91.1
zero-shot-action-recognition-on-ucf101BIKE
Top-1 Accuracy: 86.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于预训练视觉-语言模型的双向跨模态知识探索用于视频识别 | 论文 | HyperAI超神经