
摘要
我们提出了一种用于视频分类和检索的零样本学习(ZSL)任务的视听多模态方法。尽管近年来零样本学习已得到广泛研究,但主要局限于视觉模态和图像。我们证明了在视频的零样本学习中,音频和视觉模态都非常重要。由于目前缺乏可用于研究该任务的数据集,我们还构建了一个包含33个类别的适当多模态数据集,其中包含156,416个视频,这些视频来自现有的大规模音频事件数据集。通过实证研究,我们展示了在使用嵌入学习方法的多模态扩展时,加入音频模态可以提高零样本分类和检索任务的性能。此外,我们提出了一种新颖的方法,利用联合学习的模态注意力网络预测“主导”模态。我们在半监督设置下学习注意力机制,因此不需要为各个模态提供额外的显式标签。我们还提供了对特定模态注意力的定性验证,该方法成功泛化到了未见过的测试类别。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| gzsl-video-classification-on-activitynet-gzsl-1 | CJME | HM: 5.12 ZSL: 5.84 |
| gzsl-video-classification-on-ucf-gzsl-main | CJME | HM: 12.48 ZSL: 8.29 |
| gzsl-video-classification-on-vggsound-gzsl-1 | CJME | HM: 6.17 ZSL: 5.16 |