3 个月前

基于位置编码的全局与局部注意力机制在视频摘要中的应用

基于位置编码的全局与局部注意力机制在视频摘要中的应用

摘要

本文提出了一种新型的监督式视频摘要方法。为克服现有基于RNN的摘要架构在建模长距离帧间依赖关系以及训练过程难以并行化方面的缺陷,所提出的模型采用自注意力机制来评估视频帧的重要性。与以往依赖注意力机制、通过观察完整帧序列来建模帧间依赖的方法不同,本方法结合了全局与局部多头注意力机制,能够在不同粒度层次上捕捉帧间依赖关系的多样化建模方式。此外,所采用的注意力机制引入了一个编码视频帧时间位置信息的组件,这对于生成高质量的视频摘要具有重要意义。在SumMe和TVSum两个数据集上的实验结果表明,所提出的模型在性能上优于现有的注意力机制方法,并在与其它先进监督式摘要方法的对比中展现出竞争力。通过针对核心组件(即全局与局部多头注意力机制协同绝对位置编码)的消融实验,进一步验证了各组件对整体摘要性能的相对贡献。

基准测试

基准方法指标
supervised-video-summarization-on-summePGL-SUM
F1-score (Canonical): 55.6
supervised-video-summarization-on-summePGL-SUM (maximum learning capacity)
F1-score (Canonical): 57.1
supervised-video-summarization-on-tvsumPGL-SUM
F1-score (Canonical): 61.0
Kendall's Tau: 0.157
Spearman's Rho: 0.206
supervised-video-summarization-on-tvsumPGL-SUM (maximum learning capacity)
F1-score (Canonical): 62.7
video-summarization-on-summePGL-SUM
F1-score (Canonical): 55.6
video-summarization-on-tvsumPGL-SUM
F1-score (Canonical): 61.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供