3 个月前

TS2-Net:用于文本-视频检索的令牌迁移与选择Transformer

TS2-Net:用于文本-视频检索的令牌迁移与选择Transformer

摘要

文本-视频检索是一项具有重要实际价值的任务,近年来受到越来越多的关注,其中学习时空视频表征成为研究热点之一。当前先进视频检索模型中的视频编码器通常直接采用预训练的视觉主干网络,且网络结构固定,因此难以进一步优化以生成细粒度的时空视频表征。本文提出一种新型的令牌迁移与选择Transformer架构——TS²-Net(Token Shift and Selection Network),该架构能够动态调整输入视频样本的令牌序列,并在时空两个维度上选择具有信息量的令牌。其中,令牌迁移模块在相邻帧之间往返移动整个令牌特征,以保留完整的令牌表征并捕捉细微的运动变化;随后,令牌选择模块筛选出对局部空间语义贡献最大的令牌。通过大量实验验证,所提出的TS²-Net在多个主流文本-视频检索基准测试中均取得了当前最优性能,包括在MSRVTT、VATEX、LSMDC、ActivityNet和DiDeMo数据集上创造了新的纪录。

代码仓库

yuqi657/ts2_net
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
video-retrieval-on-msr-vtt-1kaTS2-Net
text-to-video R@1: 54.0
text-to-video R@10: 87.4
text-to-video R@5: 79.3
video-retrieval-on-vatexTS2-Net
text-to-video R@1: 59.1
text-to-video R@10: 95.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TS2-Net:用于文本-视频检索的令牌迁移与选择Transformer | 论文 | HyperAI超神经