HyperAIHyperAI

Command Palette

Search for a command to run...

轻量级注意力特征融合:文本到视频检索的新基准

Fan Hu extsuperscript1,2* Aozhu Chen extsuperscript1,2* Ziyue Wang extsuperscript1,2* Fangming Zhou extsuperscript1,2 Jianfeng Dong extsuperscript3 Xirong Li extsuperscript1,2†

摘要

本文重新探讨了特征融合这一传统话题,但在文本到视频检索的新背景下进行研究。不同于以往仅在视频端或文本端考虑特征融合的研究,我们旨在通过统一框架实现两端的特征融合。我们认为,优化特征的凸组合比通过计算量大的多头自注意力机制建模它们之间的相关性更为可取。为此,我们提出了轻量级注意力特征融合(Lightweight Attentional Feature Fusion, LAFF)。LAFF 在早期和晚期阶段以及视频和文本两端均执行特征融合,使其成为利用多样化(现成)特征的强大方法。LAFF 的可解释性可用于特征选择。我们在五个公开基准数据集(MSR-VTT、MSVD、TGIF、VATEX 和 TRECVID AVS 2016-2020)上进行了广泛的实验,验证了 LAFF 作为文本到视频检索新基线的有效性。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供