3 个月前

基于深度跨模态投影学习的图像-文本匹配

基于深度跨模态投影学习的图像-文本匹配

摘要

图像-文本匹配的关键在于如何准确度量视觉与文本输入之间的相似性。尽管通过双向排序损失(bi-directional ranking loss)将深度跨模态嵌入进行关联已取得显著进展,但在实际应用中,如何有效挖掘有用的三元组样本并合理选择合适的边界(margin)仍是亟待解决的挑战。本文提出了一种跨模态投影匹配(Cross-modal Projection Matching, CMPM)损失函数和一种跨模态投影分类(Cross-modal Projection Classification, CMPC)损失函数,用于学习具有区分性的图像-文本嵌入表示。CMPM损失通过最小化投影兼容性分布与基于小批量中所有正负样本定义的归一化匹配分布之间的KL散度,实现更精确的匹配建模。CMPC损失则采用改进的范数Softmax损失,对一种模态的表示向量投影到另一模态空间时进行分类,以进一步增强各类别特征的紧凑性。在多个数据集上的大量分析与实验结果表明,所提出方法在图像-文本匹配任务中具有显著优势。

基准测试

基准方法指标
cross-modal-retrieval-on-flickr30kCMPL (ResNet)
Image-to-text R@1: 49.6
Image-to-text R@10: 86.1
Image-to-text R@5: 76.8
Text-to-image R@1: 37.3
Text-to-image R@10: 75.5
Text-to-image R@5: 65.7
nlp-based-person-retrival-on-cuhk-pedesCMPM+CMPC
R@1: 49.37
R@10: 79.27
R@5: -

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于深度跨模态投影学习的图像-文本匹配 | 论文 | HyperAI超神经