4 个月前

时序和跨模态注意力机制在视听零样本学习中的应用

时序和跨模态注意力机制在视听零样本学习中的应用

摘要

音视频泛化零样本学习(Audio-visual Generalized Zero-Shot Learning)用于视频分类时,需要理解音频和视觉信息之间的关系,以便在测试阶段识别出从未见过的新类别样本。视频数据中音频和视觉数据之间天然存在的语义和时间对齐可以被利用来学习强大的表示,这些表示能够在测试阶段推广到未见过的类别。我们提出了一种多模态和时间交叉注意力框架(Temporal Cross-Attention Framework, \modelName),用于音视频泛化零样本学习。该框架的输入是从预训练网络中获得的时间对齐的音频和视觉特征。鼓励框架关注跨模态的时间对应关系而不是模态内的自注意力显著提升了性能。我们展示了所提出的框架在处理时间特征时,在\ucf、\vgg和\activity基准数据集上取得了最先进的泛化零样本学习性能。所有结果的复现代码可在以下网址获取:\url{https://github.com/ExplainableML/TCAF-GZSL}。

代码仓库

explainableml/avdiff-gfsl
pytorch
GitHub 中提及
explainableml/tcaf-gzsl
官方
pytorch
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供