
摘要
我们研究了根据自然语言短语对图像区域进行分割的问题,并在一项包含77,262张图像和345,486个短语-区域对应关系的新数据集上开展实验。该数据集基于Visual Genome数据集构建,利用其已有标注生成了一组具有挑战性的指代短语,并对这些短语所对应的图像区域进行了人工标注。我们数据集中的短语涵盖多个图像区域,描述了大量物体与非物体类别(stuff categories)及其属性,包括颜色、形状、组成部分,以及与其他图像实体之间的关系。实验结果表明,本数据集中概念的规模与多样性对现有最先进方法构成了显著挑战。为此,我们系统性地处理了这些概念的长尾分布问题,并提出了一种模块化方法,有效融合类别、属性与关系线索,其性能优于现有方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on | HULANet | Mean IoU: 41.3 Pr@0.5: 42.9 Pr@0.7: 27.8 Pr@0.9: 5.9 |
| referring-expression-segmentation-on | RMI | Mean IoU: 21.1 Pr@0.5: 22 Pr@0.7: 11.6 Pr@0.9: 1.5 |
| referring-expression-segmentation-on | MattNet | Mean IoU: 20.2 Pr@0.5: 19.7 Pr@0.7: 13.5 Pr@0.9: 3 |