4 个月前

重新思考视觉定位中的多样化和区分性提议生成

重新思考视觉定位中的多样化和区分性提议生成

摘要

视觉定位的目标是在图像中定位由文本查询短语所指的对象。已提出了多种视觉定位方法,该问题可以模块化为一个通用框架:提议生成、多模态特征表示和提议排序。在这三个模块中,大多数现有方法主要关注后两个模块,而提议生成的重要性通常被忽视。本文重新审视了构成良好提议生成器的属性问题。我们在生成提议时同时引入了多样性和区分性,并因此提出了多样化和区分性提议网络模型(DDPN)。基于DDPN生成的提议,我们提出了一种高性能的视觉定位基线模型,并在四个基准数据集上对其进行了评估。实验结果表明,我们的模型在所有测试数据集上均取得了显著改进(例如,在ReferItGame数据集上提高了18.8%,在Flickr30k Entities数据集上提高了8.2%,分别超过了现有的最先进方法)。

代码仓库

xiangchenchao/ddpn
官方
pytorch

基准测试

基准方法指标
phrase-grounding-on-flickr30k-entities-testDDPN (ResNet-101)
R@1: 73.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
重新思考视觉定位中的多样化和区分性提议生成 | 论文 | HyperAI超神经