4 个月前

基于文本的视频检索双重编码方法

基于文本的视频检索双重编码方法

摘要

本文探讨了通过文本进行视频检索这一具有挑战性的问题。在这样的检索范式中,终端用户仅通过自然语言句子描述的即时查询来搜索未标注的视频,而不提供任何视觉示例。鉴于视频由一系列帧组成,查询则由一系列单词构成,有效的序列到序列跨模态匹配至关重要。为此,首先需要将这两种模态编码为实值向量,然后将其投影到一个共同的空间中。在本文中,我们通过提出一种双深度编码网络来实现这一点,该网络能够将视频和查询编码为其各自的强大密集表示形式。我们的创新之处体现在两个方面:首先,不同于以往依赖特定单层编码器的方法,所提出的网络执行多层编码,以从粗到细的方式表示两种模态的丰富内容;其次,不同于传统的基于概念或潜在空间的共同空间学习算法,我们引入了一种混合空间学习方法,该方法结合了潜在空间的高性能和概念空间的良好可解释性。双编码在概念上简单明了,在实践中效果显著,并且可以通过混合空间学习进行端到端训练。在四个具有挑战性的视频数据集上的广泛实验表明了新方法的有效性。

代码仓库

danieljf24/hybrid_space
pytorch
GitHub 中提及

基准测试

基准方法指标
ad-hoc-video-search-on-trecvid-avs16-iacc-3Dual Encoding
infAP: 0.152
ad-hoc-video-search-on-trecvid-avs17-iacc-3Dual Encoding
infAP: 0.231
ad-hoc-video-search-on-trecvid-avs18-iacc-3Dual Encoding
infAP: 0.121

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于文本的视频检索双重编码方法 | 论文 | HyperAI超神经