4 个月前

利用图像级监督学习空间正则化以实现多标签图像分类

利用图像级监督学习空间正则化以实现多标签图像分类

摘要

多标签图像分类是计算机视觉中的一个基本但具有挑战性的任务。近年来,通过利用标签之间的语义关系,已经取得了显著进展。然而,传统方法无法建模多标签图像中标签之间的潜在空间关系,因为通常不会提供标签的空间注释。在本文中,我们提出了一种统一的深度神经网络,该网络仅使用图像级别的监督即可同时利用标签之间的语义和空间关系。对于给定的多标签图像,我们提出的空间正则化网络(Spatial Regularization Network, SRN)为所有标签生成注意力图,并通过可学习的卷积捕捉它们之间的潜在关系。通过将正则化的分类结果与ResNet-101网络的原始结果进行聚合,可以持续提升分类性能。整个深度神经网络仅使用图像级别的注释进行端到端训练,因此不需要额外的图像注释工作。在3个不同类型的公共数据集上进行的广泛评估表明,我们的方法显著优于现有技术,并且具有强大的泛化能力。对所学SRN模型的分析表明,它能够有效捕捉标签之间的语义和空间关系,从而提高分类性能。

代码仓库

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
利用图像级监督学习空间正则化以实现多标签图像分类 | 论文 | HyperAI超神经