
摘要
视听零样本学习旨在对由对应音频和视频序列组成的样本进行分类,这些样本所属的类别在训练过程中并未出现。对视听数据的分析显示,其具有较高的双曲性,这表明使用双曲变换以实现曲率感知几何学习的潜在优势,目的是探索该任务中更为复杂的层次数据结构。所提出的方法采用了一种新颖的损失函数,该函数在双曲空间中融合了视频和音频特征之间的跨模态对齐。此外,我们还探讨了在双曲投影中使用多个自适应曲率的可能性。实验结果表明,在这一极具挑战性的任务上,我们提出的用于零样本学习的双曲方法在三个数据集(VGGSound-GZSL、UCF-GZSL 和 ActivityNet-GZSL)上的表现优于现有最佳方法,分别实现了约 3.0%、7.0% 和 5.3% 的调和平均值(HM)提升。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| gzsl-video-classification-on-activitynet-gzsl | Hyper-multiple | HM: 15.25 ZSL: 10.39 |
| gzsl-video-classification-on-activitynet-gzsl-1 | Hyper-multiple | HM: 12.65 ZSL: 9.50 |
| gzsl-video-classification-on-ucf-gzsl-cls | Hyper-multiple | HM: 48.30 ZSL: 52.11 |
| gzsl-video-classification-on-ucf-gzsl-main | Hyper-multiple | HM: 29.32 ZSL: 22.24 |
| gzsl-video-classification-on-vggsound-gzsl | Hyper-multiple | HM: 8.67 ZSL: 7.31 |
| gzsl-video-classification-on-vggsound-gzsl-1 | Hyper-multiple | HM: 9.32 ZSL: 7.97 |