3 个月前

VLT:用于指代分割的视觉-语言Transformer与查询生成

VLT:用于指代分割的视觉-语言Transformer与查询生成

摘要

我们提出一种视觉-语言Transformer(Vision-Language Transformer, VLT)框架,用于指代分割任务,旨在促进多模态信息间的深度交互,提升对视觉-语言特征的整体理解能力。在与图像交互过程中,语言表达的动态重点具有多种理解方式。然而,现有Transformer模型在训练完成后所学习到的查询(queries)是固定的,难以应对语言表达在随机性与多样性方面的巨大差异。为解决这一问题,我们提出一种查询生成模块(Query Generation Module),能够动态生成多组针对特定输入的查询,以表征语言表达的多样化理解。为进一步从这些多样化的理解中筛选出最优结果,以生成更精准的分割掩码,我们设计了查询平衡模块(Query Balance Module),用于有选择性地融合多组查询对应的响应特征。此外,为增强模型对多样化语言表达的处理能力,我们引入样本间学习(inter-sample learning)机制,显式地赋予模型理解同一对象不同语言描述的能力。为此,我们提出掩码对比学习(masked contrastive learning)策略,旨在缩小针对同一目标对象的不同语言表达所对应的特征差异,同时增强不同对象特征之间的区分能力。所提出的框架轻量化设计,且在五个基准数据集上 consistently 取得了新的最先进(state-of-the-art)的指代分割性能。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
VLT:用于指代分割的视觉-语言Transformer与查询生成 | 论文 | HyperAI超神经