3 个月前

通过恢复性评分将自监督学习引入无监督视频摘要。

通过恢复性评分将自监督学习引入无监督视频摘要。

摘要

本文提出了一种全新的无监督视频摘要生成方法。我们的方法首先训练一个Transformer编码器模型,通过自监督方式利用部分帧被遮蔽的视频作为输入,实现对缺失帧的重建。随后,我们设计了一种算法,利用上述训练好的编码器为视频中的每一帧计算重要性得分。这些帧的重要性得分被用于生成最终的视频摘要。实验结果表明,模型在遮蔽帧视频上的重建损失与视频中剩余帧的代表性之间存在显著相关性。我们在TVSum和SumMe两个标准数据集上验证了所提方法的有效性,结果表明其性能优于现有的最先进(SOTA)方法。此外,与基于生成对抗学习的SOTA技术相比,我们的方法在训练过程中表现出更高的稳定性。本文的源代码已公开发布。

基准测试

基准方法指标
unsupervised-video-summarization-on-summeRS-SUM
F1-score: 52.0
unsupervised-video-summarization-on-tvsumRS-SUM
F1-score: 61.4
Kendall's Tau: 0.08
Spearman's Rho: 0.106

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过恢复性评分将自监督学习引入无监督视频摘要。 | 论文 | HyperAI超神经