
摘要
音视频泛化零样本学习(Audio-visual Generalized Zero-Shot Learning)用于视频分类时,需要理解音频和视觉信息之间的关系,以便在测试阶段识别出从未见过的新类别样本。视频数据中音频和视觉数据之间天然存在的语义和时间对齐可以被利用来学习强大的表示,这些表示能够在测试阶段推广到未见过的类别。我们提出了一种多模态和时间交叉注意力框架(Temporal Cross-Attention Framework, \modelName),用于音视频泛化零样本学习。该框架的输入是从预训练网络中获得的时间对齐的音频和视觉特征。鼓励框架关注跨模态的时间对应关系而不是模态内的自注意力显著提升了性能。我们展示了所提出的框架在处理时间特征时,在\ucf、\vgg和\activity基准数据集上取得了最先进的泛化零样本学习性能。所有结果的复现代码可在以下网址获取:\url{https://github.com/ExplainableML/TCAF-GZSL}。
代码仓库
explainableml/avdiff-gfsl
pytorch
GitHub 中提及
explainableml/tcaf-gzsl
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| gzsl-video-classification-on-activitynet-gzsl | TCaF | HM: 12.20 ZSL: 7.96 |
| gzsl-video-classification-on-activitynet-gzsl-1 | TCaF | HM: 10.71 ZSL: 7.91 |
| gzsl-video-classification-on-ucf-gzsl-cls | TCaF | HM: 50.78 ZSL: 44.64 |
| gzsl-video-classification-on-ucf-gzsl-main | TCaF | HM: 31.72 ZSL: 24.81 |
| gzsl-video-classification-on-vggsound-gzsl | TCaF | HM: 8.77 ZSL: 7.41 |
| gzsl-video-classification-on-vggsound-gzsl-1 | TCaF | HM: 7.33 ZSL: 6.06 |