3 个月前

基于语义图嵌入的跨模态注意力多标签分类

基于语义图嵌入的跨模态注意力多标签分类

摘要

多标签图像与视频分类是计算机视觉领域中基础但极具挑战性的任务。其主要难点在于捕捉标签之间的空间或时间依赖关系,以及识别各类别具有判别性的特征位置。为应对这些挑战,本文提出一种基于语义图嵌入的跨模态注意力机制,用于多标签分类。在构建标签图的基础上,我们提出一种基于邻接关系的相似性图嵌入方法,以学习语义标签嵌入,从而显式地建模标签间的关联关系。随后,利用所学习的标签嵌入指导生成新型的跨模态注意力图。在两个多标签图像分类数据集(MS-COCO 和 NUS-WIDE)上的实验结果表明,所提方法优于现有各类先进方法。此外,我们在大规模多标签视频分类数据集(YouTube-8M Segments)上验证了该方法的有效性,实验结果进一步证明了该方法具有良好的泛化能力。

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于语义图嵌入的跨模态注意力多标签分类 | 论文 | HyperAI超神经