
摘要
视频摘要旨在通过生成简短、精炼且多样化的摘要来促进大规模视频浏览,这些摘要能够代表原始视频的内容。在本文中,我们将视频摘要问题建模为一个顺序决策过程,并开发了一种深度摘要网络(DSN)来生成视频摘要。DSN为每个视频帧预测一个概率值,该值表示该帧被选中的可能性,然后根据这些概率分布采取行动选择帧,从而形成视频摘要。为了训练我们的DSN,我们提出了一种端到端的基于强化学习的框架,在该框架中设计了一个新颖的奖励函数,该函数综合考虑了生成摘要的多样性和代表性,并且完全不依赖于标签或用户交互。在训练过程中,奖励函数评估生成的摘要是否具有多样性和代表性,而DSN则通过学习生成更加多样化和更具代表性的摘要来争取更高的奖励。由于不需要标签,我们的方法可以实现完全无监督。我们在两个基准数据集上进行了广泛的实验,结果表明我们的无监督方法不仅优于其他最先进的无监督方法,而且与大多数已发表的有监督方法相当甚至更优。
代码仓库
KaiyangZhou/vsumm-reinforce
官方
pytorch
GitHub 中提及
ymlwww/rlproject
pytorch
GitHub 中提及
KaiyangZhou/pytorch-vsumm-reinforce
pytorch
GitHub 中提及
neda60/video-summarization-using-FCSN
pytorch
GitHub 中提及
n9839950/EGH400-2-DSN
pytorch
GitHub 中提及
HoganZhang/pytorch-vsumm-reinforce
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| supervised-video-summarization-on-summe | DR-DSN | F1-score (Augmented): 43.9 F1-score (Canonical): 42.1 |
| supervised-video-summarization-on-tvsum | DR-DSN | F1-score (Augmented): 59.8 F1-score (Canonical): 58.1 |
| unsupervised-video-summarization-on-summe | DR-DSN | F1-score: 41.4 Parameters (M): 2.63 training time (s): 19.8 |
| unsupervised-video-summarization-on-tvsum | DR-DSN | F1-score: 57.6 Kendall's Tau: 0.020 Parameters (M): 2.63 Spearman's Rho: 0.026 training time (s): 58.8 |