3 个月前

HADA:一种基于图的图文检索融合框架

HADA:一种基于图的图文检索融合框架

摘要

针对视觉与语言任务,尤其是图像-文本检索任务,已有大量模型被提出。目前所有顶尖(SOTA)模型均包含数亿参数,并在大规模外部数据集上进行预训练,该策略已被证实能显著提升整体性能。然而,从零开始设计一种具有新颖架构的新模型,并在海量数据上使用大量GPU进行充分训练,以超越现有众多已公开可用的SOTA模型,实属困难。本文提出了一种轻量级的图结构框架——HADA(Hierarchical Adaptive Dual Attention),无需从头构建模型,而是通过融合多个预训练模型来实现更优性能。具体而言,我们构建了一个图结构,其中节点代表从预训练模型中提取的特征,节点之间的边则表示特征间的关联关系。该图结构用于捕获并融合各预训练模型之间的互补信息。随后,引入图神经网络(GNN)对节点间连接关系进行动态更新,从而生成图像与文本的代表性嵌入向量。最后,采用余弦相似度计算实现图像与文本之间的匹配,确保推理过程高效、延迟低。实验结果表明,尽管HADA的可训练参数极少,但在Flickr30k数据集上,其评估指标相较基线模型提升了超过3.6%。值得注意的是,该模型无需在任何外部数据集上进行训练,且因参数量极小,仅需1块GPU即可完成训练,显著降低了计算资源需求。相关源代码已开源,地址为:https://github.com/m2man/HADA。

代码仓库

m2man/hada
pytorch
GitHub 中提及
m2man/HADA-LAVIS
官方
pytorch

基准测试

基准方法指标
image-retrieval-on-flickr30kHADA
Recall@1: 81.36
Recall@10: 98.02
Recall@5: 95.94
image-retrieval-on-flickr30kALBEF
Recall@1: 79.76
Recall@10: 97.72
Recall@5: 95.3
image-retrieval-on-flickr30kUNITER
Recall@1: 75.56
Recall@10: 96.76
Recall@5: 94.08
image-retrieval-on-mscocoBLIP
Recall@1: 57.32
Recall@10: 88.92
Recall@5: 81.84
image-retrieval-on-mscocoCLIP
Recall@1: 37.02
Recall@10: 71.5
Recall@5: 61.66
image-retrieval-on-mscocoHADA
Recall@1: 58.46
Recall@10: 89.66
Recall@5: 82.85
image-to-text-retrieval-on-flickr30kUNITER
Recall@1: 87.3
Recall@10: 99.2
Recall@5: 98
image-to-text-retrieval-on-flickr30kALBEF
Recall@1: 92.6
Recall@10: 99.9
Recall@5: 99.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
HADA:一种基于图的图文检索融合框架 | 论文 | HyperAI超神经