4 个月前

LAVT:语言感知视觉变换器用于指代图像分割

LAVT:语言感知视觉变换器用于指代图像分割

摘要

指代图像分割是一项基本的视觉-语言任务,旨在从图像中分割出由自然语言表达所指代的对象。这一任务的关键挑战之一在于利用指代表达来突出图像中的相关位置。解决这一问题的一种范式是借助强大的视觉-语言(“跨模态”)解码器,将分别从视觉编码器和语言编码器独立提取的特征进行融合。最近的方法通过使用Transformer作为跨模态解码器,在这一范式中取得了显著进展,这与Transformer在许多其他视觉-语言任务中的巨大成功同步。在本研究中,我们采用了不同的方法,展示了通过在视觉Transformer编码网络的中间层早期融合语言和视觉特征,可以实现显著更好的跨模态对齐。通过在视觉特征编码阶段进行跨模态特征融合,我们可以利用Transformer编码器已证明的相关性建模能力来挖掘有用的多模态上下文。这样,只需一个轻量级的掩码预测器即可获得准确的分割结果。我们的方法无需复杂的附加组件,在RefCOCO、RefCOCO+和G-Ref数据集上大幅超越了先前的最先进方法。

代码仓库

yz93/lavt-ris
官方
pytorch

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
LAVT:语言感知视觉变换器用于指代图像分割 | 论文 | HyperAI超神经