3 个月前

基于时空图的关联推理用于视频摘要

基于时空图的关联推理用于视频摘要

摘要

本文提出了一种动态图建模方法,用于学习视频摘要任务中的时空表征。现有大多数视频摘要方法通常采用在ImageNet上预训练的深度模型提取图像级特征。与此不同,本文方法充分利用目标级和关系级信息,以捕捉视频中的时空依赖关系。具体而言,该方法首先在检测到的目标提议(object proposals)基础上构建空间图;随后,通过聚合空间图的表示信息,构建时间图。在此基础上,利用图卷积网络对空间图与时间图进行关系推理,进而提取用于重要性评分预测与关键帧选择的时空表征。为消除因节点高度连接所导致的关系冗余,本文进一步设计了一种自注意力边池化模块(self-attention edge pooling module),能够自动忽略图中无意义的关系连接。我们在两个主流基准数据集(SumMe和TVSum)上进行了大量实验。实验结果表明,所提出的方法在性能上显著优于现有的先进视频摘要方法。

基准测试

基准方法指标
graph-classification-on-nci1SAEPool_g
Accuracy: 74.48%
graph-classification-on-nci109SAEPool_h
Accuracy: 75.85
graph-classification-on-proteinsSAEPool
Accuracy: 80.36%
supervised-video-summarization-on-summeRR-STG
F1-score (Augmented): 54.8
F1-score (Canonical): 53.4
Kendall's Tau: 0.211
Spearman's Rho: 0.234
supervised-video-summarization-on-tvsumRR-STG
F1-score (Augmented): 63.6
F1-score (Canonical): 63.0
Kendall's Tau: 0.162
Spearman's Rho: 0.212
video-summarization-on-summeRR-STG
F1-score (Augmented): 55.3
F1-score (Canonical): 54.5
video-summarization-on-tvsumRR-STG
F1-score (Augmented): 63.6
F1-score (Canonical): 63.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供