4 个月前

多层级多模态公共语义空间用于图像-短语对齐

多层级多模态公共语义空间用于图像-短语对齐

摘要

我们通过学习一种多层级的共同语义空间来解决短语定位问题,该空间由文本和视觉模态共享。我们利用了深度卷积神经网络的多层级特征图以及基于字符的语言模型提取的情境化单词和句子嵌入。在对每个层级的视觉特征、单词和句子嵌入进行专门的非线性映射之后,我们在多个实例化的共同语义空间中使用余弦相似度进行任何目标文本与视觉内容之间的比较。我们通过一个多层级的多模态注意力机制引导模型,该机制在每个层级输出注意后的视觉特征。选择最佳层级与文本内容进行比较,以最大化真实图像-句子对的相关性得分。在三个公开数据集上进行的实验表明,我们的方法在短语定位方面相比现有最先进技术取得了显著的性能提升(相对提升了20%-60%),并在这些数据集上创造了新的性能记录。我们提供了一项详细的消融研究,展示了我们方法中每个元素的贡献,并将代码发布在GitHub上。

代码仓库

hassanhub/MultiGrounding
官方
tf
GitHub 中提及

基准测试

基准方法指标
phrase-grounding-on-flickr30kCOCO_ELMo_PNASNet
Pointing Game Accuracy: 69.19
phrase-grounding-on-referitVG_BiLSTM_VGG
Pointing Game Accuracy: 62.76
phrase-grounding-on-visual-genomeVG_ELMo_PNASNet
Pointing Game Accuracy: 55.16

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多层级多模态公共语义空间用于图像-短语对齐 | 论文 | HyperAI超神经