
摘要
本文探讨了一个新颖的问题,即基于自然语言表达对图像进行分割。这与传统的基于预定义语义类别的语义分割不同,例如,“坐在右侧长凳上的两个人”这一短语仅要求分割出坐在右侧长凳上的两个人,而不包括站在其他长凳上或坐在其他长凳上的人。以往适用于此任务的方法要么局限于固定的类别集,要么只能处理矩形区域。为了从自然语言表达中生成像素级的分割结果,我们提出了一种端到端可训练的递归和卷积网络模型,该模型能够联合学习处理视觉和语言信息。在我们的模型中,递归LSTM网络用于将指代表达编码为向量表示,而全卷积网络则用于从图像中提取空间特征图并输出目标对象的空间响应图。我们在一个基准数据集上展示了该模型可以从自然语言表达中生成高质量的分割输出,并且显著优于基线方法。
代码仓库
ssharpe42/VNLQAC
tf
GitHub 中提及
ronghanghu/text_objseg
官方
tf
GitHub 中提及
ssharpe42/NLQAC_Instance_Selection
tf
GitHub 中提及
ssharpe42/NLQAC_ObjSeg
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| referring-expression-segmentation-on-a2d | Hu et al. | AP: 0.132 IoU mean: 0.350 IoU overall: 0.474 Precision@0.5: 0.348 Precision@0.6: 0.236 Precision@0.7: 0.133 Precision@0.8: 0.033 Precision@0.9: 0.000 |
| referring-expression-segmentation-on-j-hmdb | Hu et al. | AP: 0.178 IoU mean: 0.528 IoU overall: 0.546 Precision@0.5: 0.633 Precision@0.6: 0.350 Precision@0.7: 0.085 Precision@0.8: 0.002 Precision@0.9: 0.000 |