摘要
由于标注成本高昂,视觉-文本数据集中不可避免地会引入一定比例的噪声对应关系,导致跨模态匹配模型的鲁棒性下降。尽管近期方法通过将数据集划分为干净样本对与噪声样本对子集取得了显著成果,但仍面临深度神经网络在噪声对应关系上过拟合的问题。特别是,那些在语义上部分相关、外观相似的正样本对,若缺乏细致筛选,极易被错误地划分至噪声子集,从而对鲁棒学习造成不利影响;同时,语义上部分相关、外观相近的负样本对会导致共同嵌入空间中距离关系的模糊性,进一步损害模型性能的稳定性。为解决粗粒度数据划分带来的问题,本文提出一种对应关系三重划分修正器(Correspondence Tri-Partition Rectifier, CTPR),基于神经网络的记忆效应与预测不一致性,将训练集划分为干净对、困难对和噪声对三类子集。随后,针对每一子集对对应关系标签进行精细化修正,以更准确地反映视觉-文本样本对之间的真实语义关联。进一步地,我们将锚点样本与困难负样本在修正后标签上的差异,作为改进型三元组损失中的自适应边界,实现协同教学(co-teaching)式的鲁棒训练。为验证所提方法的有效性与鲁棒性,我们在图像-文本匹配与视频-文本匹配两个典型任务上进行了实验验证。在Flickr30K、MS-COCO、MSR-VTT和LSMDC等多个公开数据集上的大量实验结果表明,本文方法能够根据语义对应程度准确划分视觉-文本样本对,并在存在噪声数据的训练条件下显著提升模型性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| cross-modal-retrieval-with-noisy-2 | CTPR-SGR | Image-to-text R@1: 76.2 Image-to-text R@10: 98.3 Image-to-text R@5: 95.8 R-Sum: 508.7 Text-to-image R@1: 60.5 Text-to-image R@10: 92.7 Text-to-image R@5: 85.2 |
| cross-modal-retrieval-with-noisy-3 | CTPR-SGR | Image-to-text R@1: 79.8 Image-to-text R@10: 98.9 Image-to-text R@5: 96.6 R-Sum: 527 Text-to-image R@1: 63.8 Text-to-image R@10: 96.7 Text-to-image R@5: 91.2 |