8 个月前

多模态表征

视觉文档检索

Xirong Li, Member, IEEE, Fangming Zhou, Chaoxi Xu, Jiaqi Ji, Gang Yang

摘要

通过文本查询检索未标记视频，即即席视频搜索（Ad-hoc Video Search, AVS），是多媒体数据管理和检索中的一个核心主题。AVS的成功依赖于跨模态表示学习，该方法将查询句子和视频编码到共同的空间中以进行语义相似度计算。受到先前一些工作在结合多个句子编码器方面取得初步成功的启发，本文提出了一种新的通用方法，有效利用多种句子编码器。我们将其称为句子编码器组装（Sentence Encoder Assembly, SEA）。SEA 方法的新颖性体现在两个方面：首先，与以往仅使用单一共同空间的方法不同，SEA 支持在多个编码器特定的共同空间中进行文本-视频匹配。这一特性防止了匹配结果被某个产生远长于其他编码器的向量的特定编码器所主导。其次，为了探索各个共同空间之间的互补性，我们提出了多空间多损失学习方法。广泛的实验结果显示，在四个基准数据集（MSR-VTT、TRECVID AVS 2016-2019、TGIF 和 MSVD）上，SEA 超越了现有最先进方法。此外，SEA 的实现极其简便。所有这些特点使得 SEA 成为 AVS 的一种有吸引力的解决方案，并有望通过引入新的句子编码器不断推进该任务的发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

多模态表征

视觉文档检索

Xirong Li, Member, IEEE, Fangming Zhou, Chaoxi Xu, Jiaqi Ji, Gang Yang

摘要

通过文本查询检索未标记视频，即即席视频搜索（Ad-hoc Video Search, AVS），是多媒体数据管理和检索中的一个核心主题。AVS的成功依赖于跨模态表示学习，该方法将查询句子和视频编码到共同的空间中以进行语义相似度计算。受到先前一些工作在结合多个句子编码器方面取得初步成功的启发，本文提出了一种新的通用方法，有效利用多种句子编码器。我们将其称为句子编码器组装（Sentence Encoder Assembly, SEA）。SEA 方法的新颖性体现在两个方面：首先，与以往仅使用单一共同空间的方法不同，SEA 支持在多个编码器特定的共同空间中进行文本-视频匹配。这一特性防止了匹配结果被某个产生远长于其他编码器的向量的特定编码器所主导。其次，为了探索各个共同空间之间的互补性，我们提出了多空间多损失学习方法。广泛的实验结果显示，在四个基准数据集（MSR-VTT、TRECVID AVS 2016-2019、TGIF 和 MSVD）上，SEA 超越了现有最先进方法。此外，SEA 的实现极其简便。所有这些特点使得 SEA 成为 AVS 的一种有吸引力的解决方案，并有望通过引入新的句子编码器不断推进该任务的发展。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

SEA：用于文本查询的视频检索的句子编码器组装方法 | 论文 | HyperAI超神经