3 个月前

语义角色感知的相关性Transformer用于文本到视频检索

语义角色感知的相关性Transformer用于文本到视频检索

摘要

随着社交媒体的兴起,每天都有海量视频片段被上传,如何根据语言查询高效检索最相关的视觉内容变得至关重要。现有大多数方法致力于学习文本与视觉内容的联合嵌入空间,但未能充分挖掘模态内部结构以及跨模态之间的关联关系。本文提出一种新型Transformer架构,通过注意力机制显式地将文本与视频分解为三类语义角色:对象、空间上下文与时间上下文,并在此基础上学习三类角色之间的内部关联与跨角色关联,从而在不同层次上挖掘具有判别性的匹配特征。在主流数据集YouCook2上的初步实验结果表明,该方法在所有评价指标上均显著优于当前最先进的方法;同时,在两项指标上也超越了另外两种SOTA方法。

代码仓库

基准测试

基准方法指标
video-retrieval-on-youcook2Satar et al.
text-to-video Median Rank: 77
text-to-video R@1: 5.3
text-to-video R@10: 20.8
text-to-video R@5: 14.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语义角色感知的相关性Transformer用于文本到视频检索 | 论文 | HyperAI超神经