摘要

视觉外观被认为是理解图像以实现跨模态检索最重要的线索，而图像中出现的场景文本有时也能提供有助于理解视觉语义的宝贵信息。然而，现有大多数跨模态检索方法忽视了场景文本信息的利用，直接引入该信息在无场景文本的场景下反而可能导致性能下降。为解决这一问题，我们提出了一种全Transformer架构，构建统一的视觉与场景文本聚合框架（Vision and Scene Text Aggregation, ViSTA），以涵盖不同模态条件下的跨模态检索任务。具体而言，ViSTA利用Transformer模块直接编码图像块，并将场景文本的嵌入向量进行融合，从而学习一种用于跨模态检索的聚合视觉表征。针对场景文本缺失的问题，我们提出一种基于融合令牌（fusion token）的新型Transformer聚合方法，仅通过融合令牌在模态间交换必要的场景文本信息，同时聚焦于各模态中最关键的特征。为进一步增强视觉模态的表达能力，我们设计了双重对比学习损失函数，将图像-文本对与融合-文本对共同嵌入到统一的跨模态空间中。与现有方法相比，ViSTA能够有效融合与视觉外观相关的场景文本语义信息，从而在无场景文本和含场景文本的两种场景下均取得更优的检索性能。实验结果表明，在含场景文本的检索任务中，ViSTA在Recall@1指标上相比其他方法至少提升8.4%。相较于当前最先进的无场景文本检索方法，ViSTA在Flickr30K和MSCOCO数据集上均实现了更高的准确率，且推理阶段速度至少提升三倍，充分验证了所提出框架的有效性与高效性。

源 PDF