8 个月前

摘要

视频表征学习在视频-文本预训练中取得了成功，实现了零样本迁移，其中每个句子都在一个共同的特征空间内被训练以接近其配对的视频片段。对于长视频而言，给定一段描述，其中的句子分别描述了视频的不同部分，通过匹配所有句段对，段落和整段视频可以隐式地对齐。然而，这种单元级别的比较可能会忽略全局时间上下文，这不可避免地限制了模型的泛化能力。本文提出了一种对比学习框架TempCLR，用于显式地比较整段视频和段落。由于视频/段落被表示为一系列片段/句子，在其时间顺序约束下，我们使用动态时间规整（Dynamic Time Warping）来计算句段对之间的最小累积成本作为序列级别的距离。为了探索时间动态特性，我们通过打乱视频片段的时间顺序来打破时间连续性的一致性。随后，我们获得了能够感知时间信息的片段/句子表征，从而促进了序列对齐。除了在视频和段落上进行预训练外，我们的方法还可以推广到不同视频实例之间的匹配任务。我们在视频检索、动作步骤定位和少样本动作识别任务上评估了该方法，并在这三个任务上均取得了一致的性能提升。详细的消融实验进一步验证了该方法设计的有效性。

源 PDF 查看代码