
摘要
视觉-语言模型(VLMs)在大规模图像-文本对上预训练后,已经在各种视觉任务中展示了出色的迁移能力。从这些强大的VLMs中迁移知识是构建有效的视频识别模型的一个有前景的方向。然而,目前在这一领域的探索仍然有限。我们认为,预训练VLMs的最大价值在于建立视觉域和文本域之间的桥梁。在本文中,我们提出了一种名为BIKE的新框架,该框架利用跨模态桥来探索双向知识:i) 我们引入了视频属性关联机制,该机制利用从视频到文本的知识生成文本辅助属性,以补充视频识别;ii) �们还提出了时间概念定位机制,该机制利用从文本到视频的专业知识以无参数的方式捕捉时间显著性,从而增强视频表示。我们在六个流行的视频数据集上进行了广泛的研究,包括Kinetics-400、Kinetics-600、UCF-101、HMDB-51、ActivityNet和Charades,结果表明我们的方法在各种识别场景下(如常规识别、零样本识别和少样本识别)均达到了最先进的性能。我们的最佳模型在具有挑战性的Kinetics-400数据集上使用发布的CLIP模型实现了88.6%的最高精度。代码可在https://github.com/whwu95/BIKE 获取。
代码仓库
whwu95/Cap4Video
pytorch
GitHub 中提及
whwu95/text4vis
pytorch
GitHub 中提及
whwu95/BIKE
官方
pytorch
GitHub 中提及
whwu95/GPT4Vis
GitHub 中提及
whwu95/ATM
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-charades | BIKE | MAP: 50.7 |
| action-classification-on-kinetics-400 | BIKE (CLIP ViT-L/14) | Acc@1: 88.7 Acc@5: 98.4 |
| action-recognition-in-videos-on-activitynet | BIKE | mAP: 96.1 |
| action-recognition-in-videos-on-hmdb-51 | BIKE | Average accuracy of 3 splits: 83.1 |
| action-recognition-in-videos-on-ucf101 | BIKE | 3-fold Accuracy: 98.8 |
| zero-shot-action-recognition-on-activitynet | BIKE | Top-1 Accuracy: 86.2 |
| zero-shot-action-recognition-on-hmdb51 | BIKE | Top-1 Accuracy: 61.4 |
| zero-shot-action-recognition-on-kinetics | BIKE | Top-1 Accuracy: 68.5 Top-5 Accuracy: 91.1 |
| zero-shot-action-recognition-on-ucf101 | BIKE | Top-1 Accuracy: 86.6 |