4 个月前

学习深度结构保持的图像-文本嵌入

学习深度结构保持的图像-文本嵌入

摘要

本文提出了一种使用双分支神经网络学习图像和文本联合嵌入的方法。该网络包含多层线性投影,随后进行非线性变换。网络训练采用了大间隔目标函数,该函数结合了跨视图排序约束和受度量学习文献启发的视图内邻域结构保持约束。大量实验表明,我们的方法在图像到文本和文本到图像检索任务中显著提高了准确性。我们的方法在Flickr30K和MSCOCO图像-句子数据集上取得了新的最先进结果,并在Flickr30K Entities数据集上的短语定位新任务中展现出潜力。

基准测试

基准方法指标
image-retrieval-on-flickr30k-1k-testSPE
R@1: 29.7
R@10: 72.1
R@5: 60.1
phrase-grounding-on-flickr30k-entities-testDSPE
R@1: 43.89
R@10: 68.66
R@5: 64.46

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习深度结构保持的图像-文本嵌入 | 论文 | HyperAI超神经