
摘要
我们研究了指代图像分割(Referring Image Segmentation, RIS),该任务旨在根据自然语言描述生成对应的分割图。高效解决RIS问题需要同时考虑视觉与语言模态之间的跨模态交互,以及各模态内部的 intra-modal 交互。现有方法存在局限性:要么以串行方式依次计算不同形式的交互(导致误差传播),要么完全忽略模态内部的交互。为克服这一局限,我们提出一种同步多模态融合模块(Synchronous Multi-Modal Fusion Module, SFM),实现三种交互的并行处理。此外,为生成更精细的分割掩码,我们设计了一种新型分层跨模态聚合模块(Hierarchical Cross-Modal Aggregation Module, HCAM),其中语言特征驱动视觉层次结构中上下文信息的高效传递与交换。我们在四个基准数据集上进行了全面的消融实验,验证了所提方法的有效性,结果表明其在性能上显著超越现有最先进(State-of-the-Art, SOTA)方法。
代码仓库
kanji95/SHNET
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-refcoco | SHNet | Overall IoU: 65.32 Precision@0.5: 75.18 Precision@0.6: 69.36 Precision@0.7: 61.21 Precision@0.8: 46.16 Precision@0.9: 16.23 |
| referring-expression-segmentation-on-refcoco-3 | SHNet | Overall IoU: 52.75 |
| referring-expression-segmentation-on-refcoco-4 | SHNet | Overall IoU: 58.46 |
| referring-expression-segmentation-on-refcoco-5 | SHNet | Overall IoU: 44.12 |
| referring-expression-segmentation-on-refcocog | SHNet | Overall IoU: 49.90 |
| referring-expression-segmentation-on-referit | SHNet | Overall IoU: 69.19 |