摘要

如今，存在大量包含图像及其周围自由形式文本的数据，这些文本与图像之间仅存在弱对应关系。弱监督短语定位（Weakly Supervised Phrase Grounding, WSG）旨在利用此类数据，在无需额外标注的前提下，学习将任意文本短语在图像中进行定位（即“接地”）。然而，当前大多数最先进的WSG方法均假设已存在一个预训练的目标检测器，并依赖其生成用于定位的候选区域（ROIs）。在本工作中，我们聚焦于无检测器的弱监督短语定位（Detector-Free WSG, DF-WSG）任务，旨在不依赖预训练检测器的情况下解决WSG问题。我们直接从图像与对应自由形式文本对中学习全部内容，从而在检测器未覆盖的类别上具备潜在优势。我们提出的“分离式定位”（Grounding by Separation, GbS）方法的核心思想是：通过随机对任意两张图像进行α混合（alpha-blending），合成“文本到图像区域”的关联关系，并将这对图像所对应的文本作为条件，利用分割网络从混合图像中恢复出α图（即混合权重图）。在测试阶段，该方法可将查询短语作为条件，作用于未混合的查询图像，从而将测试图像解释为由与短语对应的区域及其补集区域所构成的组合。实验表明，该方法在Flickr30K、Visual Genome和ReferIt等多个基准测试上，相较于此前最先进的DF-WSG方法，取得了高达8.5%的准确率提升；同时，在检测器依赖型WSG方法上也实现了超过7%的显著互补性提升，充分验证了其有效性与通用性。

源 PDF