
摘要
视频-文本检索的经典方法利用了视觉信息和文本信息之间的粗粒度或细粒度对齐。然而,根据文本查询检索正确的视频通常具有挑战性,因为这需要具备对高层次(场景)和低层次(对象)视觉线索进行推理的能力,并理解这些线索如何与文本查询相关联。为此,我们提出了一种统一的从粗到细对齐模型,命名为UCoFiA。具体而言,我们的模型在不同粒度级别上捕捉跨模态相似性信息。为了减轻无关视觉线索的影响,我们还引入了一个交互式相似性聚合模块(Interactive Similarity Aggregation, ISA),该模块在聚合跨模态相似性以获得每个粒度级别的相似性分数时,考虑了不同视觉特征的重要性。最后,我们应用Sinkhorn-Knopp算法对每个级别的相似性进行归一化处理后再求和,从而缓解了不同级别上的过表示和欠表示问题。通过综合考虑不同粒度级别的跨模态相似性,UCoFiA实现了多粒度对齐的有效统一。实验证明,UCoFiA在多个视频-文本检索基准测试中优于现有的基于CLIP的方法,在MSR-VTT、Activity-Net和DiDeMo的数据集上分别提高了2.4%、1.4%和1.3%的文本到视频检索R@1指标。我们的代码已公开发布在https://github.com/Ziyang412/UCoFiA。
代码仓库
ziyang412/ucofia
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-msr-vtt | UCoFiA | text-to-video R@1: 49.4 text-to-video R@10: 83.5 text-to-video R@5: 72.1 |
| video-retrieval-on-msr-vtt-1ka | UCoFiA | text-to-video R@1: 49.4 text-to-video R@10: 83.5 text-to-video R@5: 72.1 video-to-text R@1: 47.1 video-to-text R@10: 83.0 video-to-text R@5: 74.3 |