
摘要
针对视觉与语言任务,尤其是图像-文本检索任务,已有大量模型被提出。目前所有顶尖(SOTA)模型均包含数亿参数,并在大规模外部数据集上进行预训练,该策略已被证实能显著提升整体性能。然而,从零开始设计一种具有新颖架构的新模型,并在海量数据上使用大量GPU进行充分训练,以超越现有众多已公开可用的SOTA模型,实属困难。本文提出了一种轻量级的图结构框架——HADA(Hierarchical Adaptive Dual Attention),无需从头构建模型,而是通过融合多个预训练模型来实现更优性能。具体而言,我们构建了一个图结构,其中节点代表从预训练模型中提取的特征,节点之间的边则表示特征间的关联关系。该图结构用于捕获并融合各预训练模型之间的互补信息。随后,引入图神经网络(GNN)对节点间连接关系进行动态更新,从而生成图像与文本的代表性嵌入向量。最后,采用余弦相似度计算实现图像与文本之间的匹配,确保推理过程高效、延迟低。实验结果表明,尽管HADA的可训练参数极少,但在Flickr30k数据集上,其评估指标相较基线模型提升了超过3.6%。值得注意的是,该模型无需在任何外部数据集上进行训练,且因参数量极小,仅需1块GPU即可完成训练,显著降低了计算资源需求。相关源代码已开源,地址为:https://github.com/m2man/HADA。
代码仓库
m2man/hada
pytorch
GitHub 中提及
m2man/HADA-LAVIS
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-retrieval-on-flickr30k | HADA | Recall@1: 81.36 Recall@10: 98.02 Recall@5: 95.94 |
| image-retrieval-on-flickr30k | ALBEF | Recall@1: 79.76 Recall@10: 97.72 Recall@5: 95.3 |
| image-retrieval-on-flickr30k | UNITER | Recall@1: 75.56 Recall@10: 96.76 Recall@5: 94.08 |
| image-retrieval-on-mscoco | BLIP | Recall@1: 57.32 Recall@10: 88.92 Recall@5: 81.84 |
| image-retrieval-on-mscoco | CLIP | Recall@1: 37.02 Recall@10: 71.5 Recall@5: 61.66 |
| image-retrieval-on-mscoco | HADA | Recall@1: 58.46 Recall@10: 89.66 Recall@5: 82.85 |
| image-to-text-retrieval-on-flickr30k | UNITER | Recall@1: 87.3 Recall@10: 99.2 Recall@5: 98 |
| image-to-text-retrieval-on-flickr30k | ALBEF | Recall@1: 92.6 Recall@10: 99.9 Recall@5: 99.3 |