6 个月前

多模态表征

计算机视觉

Yuqi Liu Pengfei Xiong Luhui Xu Shengming Cao Qin Jin

摘要

文本-视频检索是一项具有重要实际价值的任务，近年来受到越来越多的关注，其中学习时空视频表征成为研究热点之一。当前先进视频检索模型中的视频编码器通常直接采用预训练的视觉主干网络，且网络结构固定，因此难以进一步优化以生成细粒度的时空视频表征。本文提出一种新型的令牌迁移与选择Transformer架构——TS²-Net（Token Shift and Selection Network），该架构能够动态调整输入视频样本的令牌序列，并在时空两个维度上选择具有信息量的令牌。其中，令牌迁移模块在相邻帧之间往返移动整个令牌特征，以保留完整的令牌表征并捕捉细微的运动变化；随后，令牌选择模块筛选出对局部空间语义贡献最大的令牌。通过大量实验验证，所提出的TS²-Net在多个主流文本-视频检索基准测试中均取得了当前最优性能，包括在MSRVTT、VATEX、LSMDC、ActivityNet和DiDeMo数据集上创造了新的纪录。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Yuqi Liu Pengfei Xiong Luhui Xu Shengming Cao Qin Jin

摘要

文本-视频检索是一项具有重要实际价值的任务，近年来受到越来越多的关注，其中学习时空视频表征成为研究热点之一。当前先进视频检索模型中的视频编码器通常直接采用预训练的视觉主干网络，且网络结构固定，因此难以进一步优化以生成细粒度的时空视频表征。本文提出一种新型的令牌迁移与选择Transformer架构——TS²-Net（Token Shift and Selection Network），该架构能够动态调整输入视频样本的令牌序列，并在时空两个维度上选择具有信息量的令牌。其中，令牌迁移模块在相邻帧之间往返移动整个令牌特征，以保留完整的令牌表征并捕捉细微的运动变化；随后，令牌选择模块筛选出对局部空间语义贡献最大的令牌。通过大量实验验证，所提出的TS²-Net在多个主流文本-视频检索基准测试中均取得了当前最优性能，包括在MSRVTT、VATEX、LSMDC、ActivityNet和DiDeMo数据集上创造了新的纪录。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供