4 个月前

AVGZSLNet:基于多模态嵌入重构标签特征的音频视觉泛化零样本学习

AVGZSLNet:基于多模态嵌入重构标签特征的音频视觉泛化零样本学习

摘要

在本文中,我们提出了一种新颖的方法,用于多模态环境下的广义零样本学习,其中测试时出现的音频/视频类别在训练过程中未曾见过。我们通过将音频和视频嵌入与相应的类别标签文本特征空间对齐,利用文本嵌入的语义相关性实现零样本学习。我们的方法采用了跨模态解码器和复合三元损失函数。跨模态解码器施加了一个约束条件,即可以从数据点的音频和视频嵌入中重建类别标签的文本特征。这有助于将音频和视频嵌入向类别标签的文本嵌入靠拢。复合三元损失函数则利用了音频、视频和文本嵌入,帮助同一类别的嵌入更加接近,同时将不同类别的嵌入推开,从而在多模态环境下提升网络性能。重要的是,即使在测试时某个模态缺失,我们的多模态零样本学习方法仍然有效。我们在广义零样本分类和检索任务上测试了该方法,并展示了其在单个模态存在以及多个模态共存的情况下均优于其他模型的表现。我们通过与先前方法进行比较并使用多种消融实验验证了该方法的有效性。

基准测试

基准方法指标
gzsl-video-classification-on-activitynet-gzsl-1AVGZSLNet
HM: 6.44
ZSL: 5.40
gzsl-video-classification-on-ucf-gzsl-mainAVGZSLNet
HM: 18.05
ZSL: 13.65
gzsl-video-classification-on-vggsound-gzsl-1AVGZSLNet
HM: 5.83
ZSL: 5.28

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
AVGZSLNet:基于多模态嵌入重构标签特征的音频视觉泛化零样本学习 | 论文 | HyperAI超神经