
摘要
文本-视频检索是一项具有重要实际价值的任务,近年来受到越来越多的关注,其中学习时空视频表征成为研究热点之一。当前先进视频检索模型中的视频编码器通常直接采用预训练的视觉主干网络,且网络结构固定,因此难以进一步优化以生成细粒度的时空视频表征。本文提出一种新型的令牌迁移与选择Transformer架构——TS²-Net(Token Shift and Selection Network),该架构能够动态调整输入视频样本的令牌序列,并在时空两个维度上选择具有信息量的令牌。其中,令牌迁移模块在相邻帧之间往返移动整个令牌特征,以保留完整的令牌表征并捕捉细微的运动变化;随后,令牌选择模块筛选出对局部空间语义贡献最大的令牌。通过大量实验验证,所提出的TS²-Net在多个主流文本-视频检索基准测试中均取得了当前最优性能,包括在MSRVTT、VATEX、LSMDC、ActivityNet和DiDeMo数据集上创造了新的纪录。
代码仓库
yuqi657/ts2_net
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-msr-vtt-1ka | TS2-Net | text-to-video R@1: 54.0 text-to-video R@10: 87.4 text-to-video R@5: 79.3 |
| video-retrieval-on-vatex | TS2-Net | text-to-video R@1: 59.1 text-to-video R@10: 95.2 |