6 个月前

多模态表征

计算机视觉

Han Fang Pengfei Xiong Luhui Xu Yu Chen

摘要

我们提出CLIP2Video网络，实现将图像-语言预训练模型端到端地迁移至视频-文本检索任务。当前视频与语言学习领域的主流方法通常从大规模视频-文本数据集中蒸馏时空视频特征以及视频与语言之间的多模态交互信息。与之不同，我们采用预训练的图像-语言模型，将其简化为一种两阶段框架，分别实现图像-文本的协同学习以及视频帧间时序关系的增强，从而使其能够在相对较小的数据集上进行有效训练。具体而言，基于对比语言-图像预训练（CLIP）模型所捕捉的空间语义，我们的模型引入了时序差分模块（Temporal Difference Block），用于在细粒度的时间视频帧上捕捉运动信息；同时设计了时序对齐模块（Temporal Alignment Block），以重新对齐视频片段与语义短语的标记（tokens），并增强多模态之间的关联性。我们进行了详尽的消融实验，并在多个主流文本到视频及视频到文本检索基准测试中取得了当前最优性能，包括在MSR-VTT、MSVD和VATEX数据集上刷新了检索准确率的新纪录。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

多模态表征

计算机视觉

Han Fang Pengfei Xiong Luhui Xu Yu Chen

摘要

我们提出CLIP2Video网络，实现将图像-语言预训练模型端到端地迁移至视频-文本检索任务。当前视频与语言学习领域的主流方法通常从大规模视频-文本数据集中蒸馏时空视频特征以及视频与语言之间的多模态交互信息。与之不同，我们采用预训练的图像-语言模型，将其简化为一种两阶段框架，分别实现图像-文本的协同学习以及视频帧间时序关系的增强，从而使其能够在相对较小的数据集上进行有效训练。具体而言，基于对比语言-图像预训练（CLIP）模型所捕捉的空间语义，我们的模型引入了时序差分模块（Temporal Difference Block），用于在细粒度的时间视频帧上捕捉运动信息；同时设计了时序对齐模块（Temporal Alignment Block），以重新对齐视频片段与语义短语的标记（tokens），并增强多模态之间的关联性。我们进行了详尽的消融实验，并在多个主流文本到视频及视频到文本检索基准测试中取得了当前最优性能，包括在MSR-VTT、MSVD和VATEX数据集上刷新了检索准确率的新纪录。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

CLIP2Video：通过图像CLIP实现视频-文本检索的精准掌握 | 论文 | HyperAI超神经