6 个月前

摘要

多标签图像与视频分类是计算机视觉领域中基础但极具挑战性的任务。其主要难点在于捕捉标签之间的空间或时间依赖关系，以及识别各类别具有判别性的特征位置。为应对这些挑战，本文提出一种基于语义图嵌入的跨模态注意力机制，用于多标签分类。在构建标签图的基础上，我们提出一种基于邻接关系的相似性图嵌入方法，以学习语义标签嵌入，从而显式地建模标签间的关联关系。随后，利用所学习的标签嵌入指导生成新型的跨模态注意力图。在两个多标签图像分类数据集（MS-COCO 和 NUS-WIDE）上的实验结果表明，所提方法优于现有各类先进方法。此外，我们在大规模多标签视频分类数据集（YouTube-8M Segments）上验证了该方法的有效性，实验结果进一步证明了该方法具有良好的泛化能力。

源 PDF