4 个月前

轻量级注意力特征融合:文本到视频检索的新基准

轻量级注意力特征融合:文本到视频检索的新基准

摘要

本文重新探讨了特征融合这一传统话题,但在文本到视频检索的新背景下进行研究。不同于以往仅在视频端或文本端考虑特征融合的研究,我们旨在通过统一框架实现两端的特征融合。我们认为,优化特征的凸组合比通过计算量大的多头自注意力机制建模它们之间的相关性更为可取。为此,我们提出了轻量级注意力特征融合(Lightweight Attentional Feature Fusion, LAFF)。LAFF 在早期和晚期阶段以及视频和文本两端均执行特征融合,使其成为利用多样化(现成)特征的强大方法。LAFF 的可解释性可用于特征选择。我们在五个公开基准数据集(MSR-VTT、MSVD、TGIF、VATEX 和 TRECVID AVS 2016-2020)上进行了广泛的实验,验证了 LAFF 作为文本到视频检索新基线的有效性。

代码仓库

ruc-aimc-lab/laff
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
ad-hoc-video-search-on-trecvid-avs16-iacc-3LAFF
infAP: 0.222
ad-hoc-video-search-on-trecvid-avs17-iacc-3LAFF
infAP: 0.290
ad-hoc-video-search-on-trecvid-avs18-iacc-3LAFF
infAP: 0.147
ad-hoc-video-search-on-trecvid-avs19-v3c1LAFF
infAP: 0.192
ad-hoc-video-search-on-trecvid-avs20-v3c1LAFF
infAP: 0.265
video-retrieval-on-msr-vttLAFF
text-to-video R@1: 29.1
text-to-video R@10: 65.8
text-to-video R@5: 54.9
video-retrieval-on-msr-vtt-1kaLAFF
text-to-video R@1: 45.8
text-to-video R@10: 82
text-to-video R@5: 71.5
video-retrieval-on-msvdLAFF
text-to-video R@1: 45.4
text-to-video R@10: 84.6
text-to-video R@5: 76.0
video-retrieval-on-tgifLAFF
text-to-video R@1: 24.5
text-to-video R@10: 54.5
text-to-video R@5: 45.0
video-retrieval-on-vatexLAFF
text-to-video R@1: 59.1
text-to-video R@10: 91.7
text-to-video R@50: 96.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
轻量级注意力特征融合:文本到视频检索的新基准 | 论文 | HyperAI超神经