4 个月前

基于自然语言表达的分割

基于自然语言表达的分割

摘要

本文探讨了一个新颖的问题,即基于自然语言表达对图像进行分割。这与传统的基于预定义语义类别的语义分割不同,例如,“坐在右侧长凳上的两个人”这一短语仅要求分割出坐在右侧长凳上的两个人,而不包括站在其他长凳上或坐在其他长凳上的人。以往适用于此任务的方法要么局限于固定的类别集,要么只能处理矩形区域。为了从自然语言表达中生成像素级的分割结果,我们提出了一种端到端可训练的递归和卷积网络模型,该模型能够联合学习处理视觉和语言信息。在我们的模型中,递归LSTM网络用于将指代表达编码为向量表示,而全卷积网络则用于从图像中提取空间特征图并输出目标对象的空间响应图。我们在一个基准数据集上展示了该模型可以从自然语言表达中生成高质量的分割输出,并且显著优于基线方法。

代码仓库

ssharpe42/VNLQAC
tf
GitHub 中提及
ronghanghu/text_objseg
官方
tf
GitHub 中提及
ssharpe42/NLQAC_ObjSeg
tf
GitHub 中提及

基准测试

基准方法指标
referring-expression-segmentation-on-a2dHu et al.
AP: 0.132
IoU mean: 0.350
IoU overall: 0.474
Precision@0.5: 0.348
Precision@0.6: 0.236
Precision@0.7: 0.133
Precision@0.8: 0.033
Precision@0.9: 0.000
referring-expression-segmentation-on-j-hmdbHu et al.
AP: 0.178
IoU mean: 0.528
IoU overall: 0.546
Precision@0.5: 0.633
Precision@0.6: 0.350
Precision@0.7: 0.085
Precision@0.8: 0.002
Precision@0.9: 0.000

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于自然语言表达的分割 | 论文 | HyperAI超神经