3 个月前

PIDRo:用于文本-视频检索的并行异构注意力与动态路由

PIDRo:用于文本-视频检索的并行异构注意力与动态路由

摘要

文本-视频检索是多模态研究中一项基础性且具有高度实用价值的任务。受大规模预训练图像-文本模型(如CLIP)取得巨大成功的启发,众多方法被提出,旨在将CLIP强大的表示学习能力迁移至文本-视频检索任务中。然而,由于视频与图像在模态特性上的差异,如何有效将CLIP适配到视频领域仍是一个尚未充分探索的问题。本文从两个方面系统地研究该问题:首先,我们以无缝方式增强CLIP迁移而来的图像编码器,以实现对视频的细粒度理解;其次,从模型结构优化与损失函数设计两个层面,实现视频与文本之间的细粒度对比学习。特别地,本文提出一种名为PIDRo(Parallel Isomeric Attention with Dynamic Routing)的细粒度对比模型,用于文本-视频检索。其中,平行同构注意力(Parallel Isomeric Attention)模块作为视频编码器,由两个并行分支构成,分别从图像块(patch)和帧(frame)两个层级建模视频的时空信息。动态路由(Dynamic Routing)模块则被设计用于增强CLIP的文本编码器,通过将细粒度语义信息动态分配至句子中相关词元(word token),生成更具信息量的词表示。该模型设计能够生成富含语义的图像块、帧及词级表示,并在此基础上进行逐标记(token-wise)的交互建模。结合增强后的编码器结构与逐标记损失函数,本文方法实现了更精细的文本-视频对齐,显著提升了检索准确性。在多个主流文本-视频检索基准测试中,包括MSR-VTT、MSVD、LSMDC、DiDeMo和ActivityNet,PIDRo均取得了当前最优(state-of-the-art)的性能表现。

基准测试

基准方法指标
video-retrieval-on-msr-vtt-1kaPIDRo
text-to-video Mean Rank: 10.7
text-to-video Median Rank: 1.0
text-to-video R@1: 55.9
text-to-video R@10: 87.6
text-to-video R@5: 79.8
video-to-text Mean Rank: 7.5
video-to-text Median Rank: 1.0
video-to-text R@1: 54.5
video-to-text R@10: 87.3
video-to-text R@5: 78,3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PIDRo:用于文本-视频检索的并行异构注意力与动态路由 | 论文 | HyperAI超神经