
摘要
尽管取得了令人印象深刻的进展,当前的多标签图像识别(MLR)算法仍然严重依赖大规模且标签完整的数据集,这使得收集大规模数据集变得极其耗时且劳动密集。使用部分标签训练多标签图像识别模型(MLR-PL)是一种替代方法,在这种方法中,每张图像仅有一些标签是已知的,而其他标签则未知。然而,现有的MLR-PL算法依赖于预训练的图像相似度模型或迭代更新图像分类模型以生成未知标签的伪标签。因此,它们需要一定数量的注释,并且不可避免地会遇到明显的性能下降,尤其是在已知标签比例较低的情况下。为了解决这一困境,我们提出了一种双视角语义感知表示融合(DSRB)方法,该方法从实例和原型两个角度分别融合不同图像中的多粒度类别特定语义表示,以将已知标签的信息传递给补充未知标签。具体而言,设计了一个实例视角表示融合(IPRB)模块,用于将一张图像中已知标签的表示与另一张图像中相应未知标签的表示进行融合,从而补充这些未知标签。同时,引入了一个原型视角表示融合(PPRB)模块,用于学习每个类别的更稳定的表示原型,并以位置敏感的方式将未知标签的表示与相应标签的原型进行融合,以补充这些未知标签。在MS-COCO、Visual Genome和Pascal VOC 2007数据集上进行的大量实验表明,所提出的DSRB在所有已知标签比例设置下均优于当前最先进的算法。
代码仓库
hcplab-sysu/hcp-mlr-pl
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| multi-label-image-recognition-with-partial | DSRB | Average mAP: 78.4 |
| multi-label-image-recognition-with-partial-1 | DSRB | Average mAP: 91.5 |
| multi-label-image-recognition-with-partial-2 | DSRB | Average mAP: 46 |