HyperAIHyperAI

Command Palette

Search for a command to run...

基于语义图嵌入的跨模态注意力多标签分类

Renchun You Zhiyao Guo Lei Cui Xiang Long Yingze Bao Shilei Wen

摘要

多标签图像与视频分类是计算机视觉领域中基础但极具挑战性的任务。其主要难点在于捕捉标签之间的空间或时间依赖关系,以及识别各类别具有判别性的特征位置。为应对这些挑战,本文提出一种基于语义图嵌入的跨模态注意力机制,用于多标签分类。在构建标签图的基础上,我们提出一种基于邻接关系的相似性图嵌入方法,以学习语义标签嵌入,从而显式地建模标签间的关联关系。随后,利用所学习的标签嵌入指导生成新型的跨模态注意力图。在两个多标签图像分类数据集(MS-COCO 和 NUS-WIDE)上的实验结果表明,所提方法优于现有各类先进方法。此外,我们在大规模多标签视频分类数据集(YouTube-8M Segments)上验证了该方法的有效性,实验结果进一步证明了该方法具有良好的泛化能力。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于语义图嵌入的跨模态注意力多标签分类 | 论文 | HyperAI超神经