3 个月前

无检测器的弱监督定位通过分离

无检测器的弱监督定位通过分离

摘要

如今,存在大量包含图像及其周围自由形式文本的数据,这些文本与图像之间仅存在弱对应关系。弱监督短语定位(Weakly Supervised Phrase Grounding, WSG)旨在利用此类数据,在无需额外标注的前提下,学习将任意文本短语在图像中进行定位(即“接地”)。然而,当前大多数最先进的WSG方法均假设已存在一个预训练的目标检测器,并依赖其生成用于定位的候选区域(ROIs)。在本工作中,我们聚焦于无检测器的弱监督短语定位(Detector-Free WSG, DF-WSG)任务,旨在不依赖预训练检测器的情况下解决WSG问题。我们直接从图像与对应自由形式文本对中学习全部内容,从而在检测器未覆盖的类别上具备潜在优势。我们提出的“分离式定位”(Grounding by Separation, GbS)方法的核心思想是:通过随机对任意两张图像进行α混合(alpha-blending),合成“文本到图像区域”的关联关系,并将这对图像所对应的文本作为条件,利用分割网络从混合图像中恢复出α图(即混合权重图)。在测试阶段,该方法可将查询短语作为条件,作用于未混合的查询图像,从而将测试图像解释为由与短语对应的区域及其补集区域所构成的组合。实验表明,该方法在Flickr30K、Visual Genome和ReferIt等多个基准测试上,相较于此前最先进的DF-WSG方法,取得了高达8.5%的准确率提升;同时,在检测器依赖型WSG方法上也实现了超过7%的显著互补性提升,充分验证了其有效性与通用性。

代码仓库

基准测试

基准方法指标
phrase-grounding-on-flickr30kGbS Ensemble MS-COCO
Pointing Game Accuracy: 75.6
phrase-grounding-on-flickr30kGBS Ensemble + 12-in-1
Pointing Game Accuracy: 85.9
phrase-grounding-on-referitGbS Ensemble MS-COCO
Pointing Game Accuracy: 58.21
phrase-grounding-on-visual-genomeGbS VG
Pointing Game Accuracy: 55.91
phrase-grounding-on-visual-genomeGbS Ensemble MS-COCO
Pointing Game Accuracy: 54.55

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
无检测器的弱监督定位通过分离 | 论文 | HyperAI超神经