4 个月前

基于注意力机制的视频摘要生成

基于注意力机制的视频摘要生成

摘要

在这项工作中,我们提出了一种新颖的方法,通过应用概念上简单且计算高效的软自注意力机制来实现监督下的基于关键镜头的视频摘要生成。目前最先进的方法通常利用双向循环网络(如BiLSTM)结合注意力机制。这些网络相比全连接网络而言,实现复杂且计算需求高。为此,我们提出了一种基于简单自注意力机制的网络用于视频摘要生成,该网络在训练过程中仅需一次前向传递和一次反向传递即可完成整个序列到序列的转换。我们的方法在该领域的两个常用基准数据集TvSum和SumMe上取得了新的最佳结果。

代码仓库

thswodnjs3/CSTA
pytorch
GitHub 中提及
590shun/summarizer
pytorch
GitHub 中提及
ok1zjf/VASNet
官方
pytorch
GitHub 中提及
VinACE/trans-vsumm
pytorch
GitHub 中提及
azhar0100/VASNet
pytorch
GitHub 中提及

基准测试

基准方法指标
video-summarization-on-summeVASNet
F1-score (Augmented): 51.09
F1-score (Canonical): 49.71
video-summarization-on-tvsumVASNet
F1-score (Augmented): 62.37
F1-score (Canonical): 61.42

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供