3 个月前

ReCon:通过关系一致性增强真实对应关系的判别能力以实现鲁棒的噪声对应关系学习

ReCon:通过关系一致性增强真实对应关系的判别能力以实现鲁棒的噪声对应关系学习

摘要

我们能否从包含错配数据对的多模态数据集中准确识别出真实的对应关系?现有方法主要侧重于跨模态对象表征之间的相似性匹配,往往忽视了模态内部至关重要的关系一致性,而这种一致性对于区分真实对应关系与虚假对应关系尤为关键。这种忽略可能导致将负样本误判为正样本,从而引发不可预期的性能下降。为解决这一问题,本文提出一种通用的关系一致性学习框架——ReCon,旨在准确识别多模态数据中的真实对应关系,从而有效缓解错配带来的负面影响。具体而言,ReCon引入了一种新颖的关系一致性学习机制,实现双重对齐:一是跨模态间的关系一致性对齐,二是模态内部的关系一致性对齐。得益于这种对关系的双重约束,ReCon显著提升了真实对应关系判别的能力,从而能够可靠地过滤出错配样本,降低错误监督带来的风险。在三个广泛使用的基准数据集(Flickr30K、MS-COCO 和 Conceptual Captions)上进行的大量实验表明,与现有最先进方法相比,ReCon 在识别真实对应关系方面展现出更强的有效性与优越性。相关代码已公开,地址为:https://github.com/qxzha/ReCon。

代码仓库

qxzha/ReCon
官方
pytorch

基准测试

基准方法指标
cross-modal-retrieval-with-noisy-1ReCon
Image-to-text R@1: 43.1
Image-to-text R@10: 78.1
Image-to-text R@5: 68.7
R-Sum: 380.5
Text-to-image R@1: 44.9
Text-to-image R@10: 77.4
Text-to-image R@5: 68.3
cross-modal-retrieval-with-noisy-2ReCon
Image-to-text R@1: 80.3
Image-to-text R@10: 97.8
Image-to-text R@5: 95.3
R-Sum: 511.8
Text-to-image R@1: 61.6
Text-to-image R@10: 91.3
Text-to-image R@5: 85.5
cross-modal-retrieval-with-noisy-3ReCon
Image-to-text R@1: 80.9
Image-to-text R@10: 98.8
Image-to-text R@5: 96.6
R-Sum: 528.6
Text-to-image R@1: 65.2
Text-to-image R@10: 96.0
Text-to-image R@5: 91.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ReCon:通过关系一致性增强真实对应关系的判别能力以实现鲁棒的噪声对应关系学习 | 论文 | HyperAI超神经