
摘要
图像-文本匹配的关键在于如何准确度量视觉与文本输入之间的相似性。尽管通过双向排序损失(bi-directional ranking loss)将深度跨模态嵌入进行关联已取得显著进展,但在实际应用中,如何有效挖掘有用的三元组样本并合理选择合适的边界(margin)仍是亟待解决的挑战。本文提出了一种跨模态投影匹配(Cross-modal Projection Matching, CMPM)损失函数和一种跨模态投影分类(Cross-modal Projection Classification, CMPC)损失函数,用于学习具有区分性的图像-文本嵌入表示。CMPM损失通过最小化投影兼容性分布与基于小批量中所有正负样本定义的归一化匹配分布之间的KL散度,实现更精确的匹配建模。CMPC损失则采用改进的范数Softmax损失,对一种模态的表示向量投影到另一模态空间时进行分类,以进一步增强各类别特征的紧凑性。在多个数据集上的大量分析与实验结果表明,所提出方法在图像-文本匹配任务中具有显著优势。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-on-flickr30k | CMPL (ResNet) | Image-to-text R@1: 49.6 Image-to-text R@10: 86.1 Image-to-text R@5: 76.8 Text-to-image R@1: 37.3 Text-to-image R@10: 75.5 Text-to-image R@5: 65.7 |
| nlp-based-person-retrival-on-cuhk-pedes | CMPM+CMPC | R@1: 49.37 R@10: 79.27 R@5: - |