4 个月前

GKGNet:基于组K近邻的图卷积网络用于多标签图像识别

GKGNet:基于组K近邻的图卷积网络用于多标签图像识别

摘要

多标签图像识别(MLIR)是一项具有挑战性的任务,旨在预测单张图像中的多个对象标签,同时建模标签与图像区域之间的复杂关系。尽管卷积神经网络和视觉变换器在处理图像的规则像素或补丁网格方面取得了成功,但这些表示方法对于捕捉不规则和不连续的兴趣区域并不理想。在这项工作中,我们提出了首个完全基于图卷积的模型——基于组K近邻的图卷积网络(GKGNet),该模型通过灵活且统一的图结构来建模语义标签嵌入与图像补丁之间的连接。为了应对不同对象的尺度变化并从多个视角捕获信息,我们提出了一种动态图构建和消息传递的组KGCN模块。实验结果表明,GKGNet在具有挑战性的多标签数据集上实现了最先进的性能,同时显著降低了计算成本,例如MS-COCO和VOC2007数据集。代码可在https://github.com/jin-s13/GKGNet 获取。

代码仓库

jin-s13/gkgnet
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
multi-label-classification-on-ms-cocoGKGNet(resolution 576)
mAP: 87.7
multi-label-classification-on-ms-cocoGKGNet(resolution 448)
mAP: 86.7
multi-label-classification-on-ms-cocoGKGNet(resolution 224)
mAP: 82
multi-label-classification-on-pascal-voc-2007GKGNet
mAP: 96.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
GKGNet:基于组K近邻的图卷积网络用于多标签图像识别 | 论文 | HyperAI超神经