4 个月前

统一的粗到细对齐方法用于视频-文本检索

Ziyang Wang; Yi-Lin Sung; Feng Cheng; Gedas Bertasius; Mohit Bansal

摘要

视频-文本检索的经典方法利用了视觉信息和文本信息之间的粗粒度或细粒度对齐。然而，根据文本查询检索正确的视频通常具有挑战性，因为这需要具备对高层次（场景）和低层次（对象）视觉线索进行推理的能力，并理解这些线索如何与文本查询相关联。为此，我们提出了一种统一的从粗到细对齐模型，命名为UCoFiA。具体而言，我们的模型在不同粒度级别上捕捉跨模态相似性信息。为了减轻无关视觉线索的影响，我们还引入了一个交互式相似性聚合模块（Interactive Similarity Aggregation, ISA），该模块在聚合跨模态相似性以获得每个粒度级别的相似性分数时，考虑了不同视觉特征的重要性。最后，我们应用Sinkhorn-Knopp算法对每个级别的相似性进行归一化处理后再求和，从而缓解了不同级别上的过表示和欠表示问题。通过综合考虑不同粒度级别的跨模态相似性，UCoFiA实现了多粒度对齐的有效统一。实验证明，UCoFiA在多个视频-文本检索基准测试中优于现有的基于CLIP的方法，在MSR-VTT、Activity-Net和DiDeMo的数据集上分别提高了2.4%、1.4%和1.3%的文本到视频检索R@1指标。我们的代码已公开发布在https://github.com/Ziyang412/UCoFiA。

代码仓库

ziyang412/ucofia

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
video-retrieval-on-msr-vtt	UCoFiA	text-to-video R@1: 49.4 text-to-video R@10: 83.5 text-to-video R@5: 72.1
video-retrieval-on-msr-vtt-1ka	UCoFiA	text-to-video R@1: 49.4 text-to-video R@10: 83.5 text-to-video R@5: 72.1 video-to-text R@1: 47.1 video-to-text R@10: 83.0 video-to-text R@5: 74.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供