8 个月前

摘要

现代视频摘要方法基于深度神经网络，这些网络需要大量标注数据进行训练。然而，现有的视频摘要数据集规模较小，容易导致深度模型过拟合。鉴于大规模数据集的标注耗时较长，我们提出了一种多模态自监督学习框架，以获取视频的语义表示，从而有助于视频摘要任务。具体而言，该自监督学习通过探索视频和文本在粗粒度和细粒度上的语义一致性以及恢复视频中的遮罩帧来实现。多模态框架在一个新收集的数据集上进行训练，该数据集包含视频-文本对。此外，我们引入了一种渐进式视频摘要方法，逐步识别出视频中的重要内容以生成更好的摘要。广泛的实验已经证明了我们的方法在秩相关系数和F值方面的有效性和优越性。

源 PDF