4 个月前

双曲视听零样本学习

双曲视听零样本学习

摘要

视听零样本学习旨在对由对应音频和视频序列组成的样本进行分类,这些样本所属的类别在训练过程中并未出现。对视听数据的分析显示,其具有较高的双曲性,这表明使用双曲变换以实现曲率感知几何学习的潜在优势,目的是探索该任务中更为复杂的层次数据结构。所提出的方法采用了一种新颖的损失函数,该函数在双曲空间中融合了视频和音频特征之间的跨模态对齐。此外,我们还探讨了在双曲投影中使用多个自适应曲率的可能性。实验结果表明,在这一极具挑战性的任务上,我们提出的用于零样本学习的双曲方法在三个数据集(VGGSound-GZSL、UCF-GZSL 和 ActivityNet-GZSL)上的表现优于现有最佳方法,分别实现了约 3.0%、7.0% 和 5.3% 的调和平均值(HM)提升。

基准测试

基准方法指标
gzsl-video-classification-on-activitynet-gzslHyper-multiple
HM: 15.25
ZSL: 10.39
gzsl-video-classification-on-activitynet-gzsl-1Hyper-multiple
HM: 12.65
ZSL: 9.50
gzsl-video-classification-on-ucf-gzsl-clsHyper-multiple
HM: 48.30
ZSL: 52.11
gzsl-video-classification-on-ucf-gzsl-mainHyper-multiple
HM: 29.32
ZSL: 22.24
gzsl-video-classification-on-vggsound-gzslHyper-multiple
HM: 8.67
ZSL: 7.31
gzsl-video-classification-on-vggsound-gzsl-1Hyper-multiple
HM: 9.32
ZSL: 7.97

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
双曲视听零样本学习 | 论文 | HyperAI超神经