4 个月前

用于无监督视频摘要的判别特征学习

用于无监督视频摘要的判别特征学习

摘要

在本文中,我们探讨了无监督视频摘要问题,旨在从输入视频中自动提取关键镜头。具体而言,基于我们的实证观察,我们解决了两个核心问题:(i) 由于每帧输出重要性分数分布平坦而导致的特征学习效果不佳;(ii) 处理长视频输入时的训练难度。为了解决第一个问题,我们提出了一种简单而有效的正则化损失项——方差损失。所提出的方差损失允许网络预测每帧的输出分数时具有较高的差异性,从而实现有效的特征学习并显著提升模型性能。对于第二个问题,我们设计了一种新颖的双流网络,称为分块和步进网络(Chunk and Stride Network, CSNet),该网络利用视频特征的局部(分块)和全局(步进)时间视图。与现有方法相比,我们的CSNet在处理长视频时能提供更好的摘要结果。此外,我们引入了一种注意力机制来处理视频中的动态信息。通过广泛的消融研究,我们展示了所提方法的有效性,并证明我们的最终模型在两个基准数据集上取得了新的最先进结果。

代码仓库

wildoctopus/SADNet
pytorch
GitHub 中提及

基准测试

基准方法指标
supervised-video-summarization-on-summeCSNet
F1-score (Augmented): 48.7
F1-score (Canonical): 48.6
supervised-video-summarization-on-tvsumCSNet
F1-score (Augmented): 57.1
F1-score (Canonical): 58.5
unsupervised-video-summarization-on-summeCSNet
F1-score: 51.3
Parameters (M): 100.76
training time (s): 568.6
unsupervised-video-summarization-on-tvsumCSNet
F1-score: 58.8
Kendall's Tau: 0.025
Parameters (M): 100.76
Spearman's Rho: 0.034
training time (s): 1797

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于无监督视频摘要的判别特征学习 | 论文 | HyperAI超神经