
摘要
指代图像分割是一项具有挑战性的任务,涉及根据自然语言描述生成像素级的分割掩码。随着所提供句子的复杂性增加,这项任务的难度也随之提高。现有的方法主要依赖视觉特征来生成分割掩码,而将文本特征视为辅助组件。然而,这种对文本理解的利用不足限制了模型完全理解给定表达式的能力。在本研究中,我们提出了一种新颖的框架,通过视觉感知文本特征(Vision-Aware Text Features)特别强调对象和上下文的理解,该框架受到人类认知过程的启发。首先,我们引入了一个CLIP先验模块来定位感兴趣的主对象,并将对象热图嵌入查询初始化过程中。其次,我们提出了两个组件的结合:上下文多模态解码器和意义一致性约束,以进一步增强语言线索与从图像中获得的上下文理解之间的连贯性和一致性。我们的方法在三个基准数据集RefCOCO、RefCOCO+和G-Ref上取得了显著的性能提升。项目页面:https://vatex.hkustvgd.com/。
代码仓库
nero1342/VATEX
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-davis | VATEX | Ju0026F score: 65.4 |
| referring-expression-segmentation-on-refcoco | VATEX | mIoU: 78.16 |
| referring-expression-segmentation-on-refcoco-3 | VATEX | Mean IoU: 70.02 |
| referring-expression-segmentation-on-refcoco-4 | VATEX | mIoU: 74.41 |
| referring-expression-segmentation-on-refcoco-5 | VATEX | mIoU: 62.52 |
| referring-expression-segmentation-on-refcoco-8 | VATEX | mIoU: 79.64 |
| referring-expression-segmentation-on-refcoco-9 | VATEX | mIoU: 75.64 |
| referring-expression-segmentation-on-refcocog | VATEX | IoU: 0.7554 mIoU: 69.73 |
| referring-expression-segmentation-on-refcocog-1 | VATEX | mIoU: 70.58 |
| referring-video-object-segmentation-on-refer | VATEX | F: 67.5 J: 63.3 Ju0026F: 65.4 |