6 个月前

摘要

我们提出一种视觉-语言Transformer（Vision-Language Transformer, VLT）框架，用于指代分割任务，旨在促进多模态信息间的深度交互，提升对视觉-语言特征的整体理解能力。在与图像交互过程中，语言表达的动态重点具有多种理解方式。然而，现有Transformer模型在训练完成后所学习到的查询（queries）是固定的，难以应对语言表达在随机性与多样性方面的巨大差异。为解决这一问题，我们提出一种查询生成模块（Query Generation Module），能够动态生成多组针对特定输入的查询，以表征语言表达的多样化理解。为进一步从这些多样化的理解中筛选出最优结果，以生成更精准的分割掩码，我们设计了查询平衡模块（Query Balance Module），用于有选择性地融合多组查询对应的响应特征。此外，为增强模型对多样化语言表达的处理能力，我们引入样本间学习（inter-sample learning）机制，显式地赋予模型理解同一对象不同语言描述的能力。为此，我们提出掩码对比学习（masked contrastive learning）策略，旨在缩小针对同一目标对象的不同语言表达所对应的特征差异，同时增强不同对象特征之间的区分能力。所提出的框架轻量化设计，且在五个基准数据集上 consistently 取得了新的最先进（state-of-the-art）的指代分割性能。

源 PDF