4 个月前

基于文本的音频增强视频检索方法——文本条件特征对齐

基于文本的音频增强视频检索方法——文本条件特征对齐

摘要

文本到视频检索系统最近通过利用大规模图像-文本对训练的预训练模型取得了显著进展。然而,大多数最新方法主要关注视频模态,而忽略了音频信号在这一任务中的作用。尽管如此,ECLIPSE 最近的一项进展通过开发一种视听视频表示方法,改进了长距离文本到视频检索。然而,文本到视频检索任务的目标是捕捉与文本查询相关的互补音频和视频信息,而不仅仅是实现更好的音频和视频对齐。为了解决这一问题,我们引入了 TEFAL(TExt-conditioned Feature ALignment),这是一种基于文本条件的特征对齐方法,可以生成受文本查询条件约束的音频和视频表示。我们的方法不仅使用了一个视听注意力模块,这可能会抑制与文本查询相关的音频信息,而是采用了两个独立的跨模态注意力模块,使文本能够分别关注音频和视频表示。我们在四个包含音频的基准数据集上验证了所提出方法的有效性:MSR-VTT、LSMDC、VATEX 和 Charades,并在这四个数据集上始终表现出优于现有最先进方法的性能。这一结果归因于额外的基于文本查询条件的音频表示及其为基于文本查询条件的视频表示提供的互补信息。

基准测试

基准方法指标
video-retrieval-on-msr-vttTEFAL
text-to-video R@1: 52
text-to-video R@10: 86.1
text-to-video R@5: 76.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于文本的音频增强视频检索方法——文本条件特征对齐 | 论文 | HyperAI超神经