
摘要
基于大规模数据集训练的深度学习(Deep Learning, DL)能够准确地将视频分类到数百个不同的类别中。然而,视频数据的标注成本极高。零样本学习(Zero-Shot Learning, ZSL)为这一问题提供了一种解决方案:ZSL仅需一次训练即可使模型泛化至训练数据中未出现过的新型任务类别。本文提出首个面向视频分类任务的端到端零样本学习算法。我们的训练方法基于近期视频分类领域的研究洞察,采用可训练的3D卷积神经网络(3D CNN)来学习视觉特征,这与以往视频ZSL方法中使用预训练特征提取器的做法形成鲜明对比。此外,我们对现有的基准测试范式进行了扩展:先前的方法虽旨在使测试任务在训练阶段保持未知,但未能真正实现这一目标。为此,我们引入训练与测试数据之间的域偏移(domain shift),并禁止针对特定测试数据集对ZSL模型进行定制化调整。实验结果表明,我们的方法在性能上显著超越现有最先进水平。相关代码、评估流程及模型权重已开源,可访问 GitHub 仓库:github.com/bbrattoli/ZeroShotVideoClassification。
代码仓库
bbrattoli/ZeroShotVideoClassification
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| zero-shot-action-recognition-on-activitynet | E2E | Top-1 Accuracy: 26.6 |
| zero-shot-action-recognition-on-hmdb51 | E2E | Top-1 Accuracy: 32.7 |
| zero-shot-action-recognition-on-ucf101 | E2E | Top-1 Accuracy: 48 |