
摘要
本文重新探讨了特征融合这一传统话题,但在文本到视频检索的新背景下进行研究。不同于以往仅在视频端或文本端考虑特征融合的研究,我们旨在通过统一框架实现两端的特征融合。我们认为,优化特征的凸组合比通过计算量大的多头自注意力机制建模它们之间的相关性更为可取。为此,我们提出了轻量级注意力特征融合(Lightweight Attentional Feature Fusion, LAFF)。LAFF 在早期和晚期阶段以及视频和文本两端均执行特征融合,使其成为利用多样化(现成)特征的强大方法。LAFF 的可解释性可用于特征选择。我们在五个公开基准数据集(MSR-VTT、MSVD、TGIF、VATEX 和 TRECVID AVS 2016-2020)上进行了广泛的实验,验证了 LAFF 作为文本到视频检索新基线的有效性。
代码仓库
ruc-aimc-lab/laff
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| ad-hoc-video-search-on-trecvid-avs16-iacc-3 | LAFF | infAP: 0.222 |
| ad-hoc-video-search-on-trecvid-avs17-iacc-3 | LAFF | infAP: 0.290 |
| ad-hoc-video-search-on-trecvid-avs18-iacc-3 | LAFF | infAP: 0.147 |
| ad-hoc-video-search-on-trecvid-avs19-v3c1 | LAFF | infAP: 0.192 |
| ad-hoc-video-search-on-trecvid-avs20-v3c1 | LAFF | infAP: 0.265 |
| video-retrieval-on-msr-vtt | LAFF | text-to-video R@1: 29.1 text-to-video R@10: 65.8 text-to-video R@5: 54.9 |
| video-retrieval-on-msr-vtt-1ka | LAFF | text-to-video R@1: 45.8 text-to-video R@10: 82 text-to-video R@5: 71.5 |
| video-retrieval-on-msvd | LAFF | text-to-video R@1: 45.4 text-to-video R@10: 84.6 text-to-video R@5: 76.0 |
| video-retrieval-on-tgif | LAFF | text-to-video R@1: 24.5 text-to-video R@10: 54.5 text-to-video R@5: 45.0 |
| video-retrieval-on-vatex | LAFF | text-to-video R@1: 59.1 text-to-video R@10: 91.7 text-to-video R@50: 96.3 |