4 个月前

面向高效和有效的文本到视频检索的粗细视觉表征学习

面向高效和有效的文本到视频检索的粗细视觉表征学习

摘要

近年来,基于CLIP的文本到视频检索方法经历了快速发展。其主要演进方向是利用更广泛的视觉和文本线索来实现对齐。具体而言,这些性能卓越的方法通常设计了一个复杂的融合模块,用于句子(单词)与视频(帧)之间的交互,尽管计算复杂度极高。然而,这些方法在特征利用和检索效率方面并非最优。为了解决这一问题,我们在训练阶段采用了多粒度视觉特征学习,确保模型能够全面捕捉从抽象到详细层次的视觉内容特征。为了更好地利用多粒度特征,我们在检索阶段设计了两阶段检索架构。该方案巧妙地平衡了检索内容的粗细粒度,并在检索效果和效率之间达到了和谐的均衡。具体来说,在训练阶段,我们设计了一个无参数的文本门控交互模块(Text-Gated Interaction Block, TIB),用于细粒度视频表示学习,并嵌入了一个额外的皮尔逊约束(Pearson Constraint),以优化跨模态表示学习。在检索阶段,我们首先使用粗粒度视频表示快速召回前k个候选对象,然后通过细粒度视频表示重新排序这些候选对象。大量实验表明,我们的方法在四个基准数据集上展示了高效性和有效性。值得注意的是,我们的方法在性能上与当前最先进的方法相当,但速度却快近50倍。

代码仓库

adxcreative/EERCF
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-retrieval-on-msr-vtt-1kaEERCF
text-to-video R@1: 54.1
text-to-video R@10: 86.9
text-to-video R@5: 78.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向高效和有效的文本到视频检索的粗细视觉表征学习 | 论文 | HyperAI超神经