4 个月前

跨模态自注意力网络用于指代图像分割

跨模态自注意力网络用于指代图像分割

摘要

我们研究了指代图像分割的问题。给定一张输入图像和一个自然语言表达,目标是在图像中分割出由该语言表达所指代的对象。现有工作在这一领域中通常将语言表达和输入图像分别进行表示,未能充分捕捉这两种模态之间的长距离关联。本文提出了一种跨模态自注意力(Cross-Modal Self-Attention, CMSA)模块,能够有效捕捉语言特征和视觉特征之间的长距离依赖关系。我们的模型可以自适应地关注指代表达中的关键词汇以及输入图像中的重要区域。此外,我们还提出了一种门控多级融合模块,用于选择性地整合不同层级的自注意力跨模态特征。该模块控制不同层级特征的信息流动。我们在四个评估数据集上验证了所提出的 方法,结果表明我们的方法始终优于现有的最先进方法。

代码仓库

lwye/CMSA-Net
tf
GitHub 中提及

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
跨模态自注意力网络用于指代图像分割 | 论文 | HyperAI超神经