4 个月前

用于无监督视频摘要的多样性代表性奖励的深度强化学习

用于无监督视频摘要的多样性代表性奖励的深度强化学习

摘要

视频摘要旨在通过生成简短、精炼且多样化的摘要来促进大规模视频浏览,这些摘要能够代表原始视频的内容。在本文中,我们将视频摘要问题建模为一个顺序决策过程,并开发了一种深度摘要网络(DSN)来生成视频摘要。DSN为每个视频帧预测一个概率值,该值表示该帧被选中的可能性,然后根据这些概率分布采取行动选择帧,从而形成视频摘要。为了训练我们的DSN,我们提出了一种端到端的基于强化学习的框架,在该框架中设计了一个新颖的奖励函数,该函数综合考虑了生成摘要的多样性和代表性,并且完全不依赖于标签或用户交互。在训练过程中,奖励函数评估生成的摘要是否具有多样性和代表性,而DSN则通过学习生成更加多样化和更具代表性的摘要来争取更高的奖励。由于不需要标签,我们的方法可以实现完全无监督。我们在两个基准数据集上进行了广泛的实验,结果表明我们的无监督方法不仅优于其他最先进的无监督方法,而且与大多数已发表的有监督方法相当甚至更优。

代码仓库

KaiyangZhou/vsumm-reinforce
官方
pytorch
GitHub 中提及
ymlwww/rlproject
pytorch
GitHub 中提及
n9839950/EGH400-2-DSN
pytorch
GitHub 中提及
HoganZhang/pytorch-vsumm-reinforce
pytorch
GitHub 中提及

基准测试

基准方法指标
supervised-video-summarization-on-summeDR-DSN
F1-score (Augmented): 43.9
F1-score (Canonical): 42.1
supervised-video-summarization-on-tvsumDR-DSN
F1-score (Augmented): 59.8
F1-score (Canonical): 58.1
unsupervised-video-summarization-on-summeDR-DSN
F1-score: 41.4
Parameters (M): 2.63
training time (s): 19.8
unsupervised-video-summarization-on-tvsumDR-DSN
F1-score: 57.6
Kendall's Tau: 0.020
Parameters (M): 2.63
Spearman's Rho: 0.026
training time (s): 58.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于无监督视频摘要的多样性代表性奖励的深度强化学习 | 论文 | HyperAI超神经